1. 基調講演:長尾真元京都大学総長

2015/07/03

基調講演
 

「グローバル社会における多言語機械翻訳(MT)のための相互協力の必要性」


 

長尾真先生
 

 
グローバル社会の到来
現在、グローバル社会が到来し、Net環境の全世界に普及し、Netを通じたマーケットが拡大している。そうした中で、アメリカやヨーロッパだけでなく、東アジア諸国の人達との観光、ビジネスの交流がますます必要になっており、従来のように英語だけでは企業活動や観光客に対応できなくなっている。
 
東京オリンピック・パラリンピック
2020年に東京でオリンピック・パラリンピックが開催されることになり、改めて言語の問題を喚起している。近年のオリンピック、パラリンピックでは、スポーツの祭典でもあり、文化の祭典でもあると規定されている。今度の東京オリンピックでも日本全国で文化的な事業が展開されると考えられる。文化庁も2020年のオリンピックを機会に日本の文化を様々な形で外国にPRしたいと考えている。そこでの最大の問題が外国語をどうするかということである。外国人が日本の文化を知る、オリンピックを楽しむために外国人には日本語からの翻訳や音声通訳装置が必要である。2020年には2000万人の外国人客が訪れることを期待している。そうすると、ヨーロッパ諸国の言語のほかに、東アジアその他の国の言語が翻訳の対象になる。スポーツだけでなく、日本文化に関する翻訳システムが必要であるし、ビジネスの文書だけでなく、オリンピック関連の各種のテキストを翻訳しなければならない。
 
京都の文化の祭典
文化的事業の例として、京都における取り組みをあげる。京都では、2016年~2020年の間(オリンピア―ド)、種々の日本文化を紹介するイベントを企画中である。まず、有形文化財の観賞として、神社・仏閣などの歴史的建造物、庭園、京町屋、美術館、博物館、さらに京都の地場産業などの見学を考えている。京都の伝統工芸を世界中の人たちに知ってもらうことで、京都の地場産業が活性化され、専門性の高い産業が健全に発展することにつながると考える。その他に華道、茶道、能・狂言、京舞といった無形文化財の観賞や体験学習も提供する。例えば、お花を観賞するだけでなく、自分でお花を活けるといった体験学習を通して、日本の精神文化が外国の人に伝わる。京町屋で長期滞在することで、京都の人たちがどういう風に生きているかを知ることができる。京都には山々の散策ルートがたくさんあり、京都の自然を楽しむ外国人が最近増加している。
京都の産業の伝統は、ワークシェアリングである。 それぞれに独特の技術を持ち、みんなが共同で1つのものを作り上げる技術社会になっている。こうした分業システムにより、みんなが生計を立てることができ、技術も温存される。近年、デンマークなどがワークシェアリングの必要性を感じているが、京都には古くから存在し、諸外国の人に知ってもらう価値がある。こうしたことを配慮した環境計画を考えている。
 
観光産業とその総合情報システムの構築
観光産業は大きな産業であり、それを支える情報システムを作らなければならない。歴史的なバックグラウンドが分かるような有形文化財、無形文化財の情報アーカイブを提供する。また、旅行者自身が時間設計をできるように、ホテル、旅館、観光スポット、市内交通、レストランなどの案内と、混み具合といったリアルタイム情報を提供する。さらに、事故や緊急事態などは、110番や近くの病院などのリアルタイム情報でサポートする必要がある。これらの情報をもとに個々の観光客に向けて、その日の観光計画に対する最良のアドバイスを与えるシステムを構築する。そうなると、すべてに言語の問題が関わる。例えば、緊急時や病気は自分のネイティブランゲージで表現したいと考えられ、そのためのシステムサポートが必要になってくる。少なくとも10言語前後は対応するべきだが簡単なことではない。
 
多言語による情報提供サービス
2020年に向けてNICTや幾つかの企業は、主要なヨーロッパおよびアジア言語の多言語サービスシステムを計画している。音声通訳装置や多言語翻訳システムを始めているがまだまだ言語の数も、扱っている分野も足りていないのが現状である。日本語と各言語の翻訳システムか、多数の言語相互間の翻訳システム(pivot方式)かという問題がある、とりあえず、日本語と各言語間をやる。中国語と英語、中国語と韓国語、中国語とドイツ語といった横方向の翻訳システムには手が回るか分からない。しかし、例えば、オリンピックで中国人が優勝した場合のインタビューは、英語や韓国語、ロシア語などに翻訳して発信する必要がある。やるべきことは膨大なため、開発組織間の情報共有や相互協力が必要になってくる。
 
MTシステムの現状
MTシステムのクオリティを考えると、分野を設定しなければならない。限定された場面での音声MT、限定された分野のテキストのMTは、日韓、日英などの言語でかなり使えるところまで来ている。ビジネス文書、オリンピックや文化の観光などに関する専門用語を集めた多言語専門用語データベースの構築が必要である。例えば、スポーツではサッカー、レスリングの技など、何十種目に対する特有の専門用語がある。何十万語のスポーツ用語の多言語のデータベースづくりが必要になる。少なくとも数百分野で、それぞれ数万語の専門用語の多言語辞書を作る必要があるだろう。これは1つの企業、1大学、1研究所ではできないので、互いのコラボレーション、協働で作っていくことを考えないといけない。
 
MTの質を高める工夫
マニュアルなどの場合であれば、翻訳対象となる言葉の表現をある程度制限することによって翻訳精度を上げることができる。また、用語や翻訳句の辞書を翻訳者(会社)の相互協力によって充実させることや、過去の翻訳の対訳例文の共同蓄積と共用が必要である。共同は各企業にとって損に見えるかもしれないが、協力の仕方として、例えばある量のデータを出せばそれの数倍のデータが利用できるといった形のインセンティブを考える。お互いがwin-winになる共同作成を考え、協力しながら切磋琢磨する。
 
言語産業時代の到来
産業界は英語だけでなく、他の多くの言語へ/からの翻訳に膨大な費用をかけており、テキスト・音声翻訳システムに対する要求はますます大きくなっている。多数の言語にかかわる仕事が増え、専門用語辞書や装置の開発などへの要求が強く、言語にかかわる産業分野が大きくなりつつある。言語資源の作成と共有が大切であり、関係する人々が相互協力することが必要である。
ビックデータの解析において、英語だけ、日本語だけのデータではなく、東南アジアなどのビックデータなどの検索システムは、日本語に直してから解析するのか?それともオリジナルの言語でするのか?という問題がある。いろんな国のデータを、それぞれの国に任せるのではなく、日本で行うことで、日本独自の解釈をし、ストラテジーをたてることができる
 
Translation Knowledgebase and User Network(TKUN)の必要性
まず、前処理、翻訳、後処理がスムースに行えるソフトウェアについての仕様の共同作成、共同改良が必要である。Translation Knowledgebaseの明確化と協働による作成と共用、TAUSなど国際的なMT User Groupとの知識の共有、ALAGINの活動(音声言語、ソフトウェアツール、言語資源・サービス)の強化と利用者の拡大などが求められている。みんなで協力して翻訳産業を活発化させることが必要である。