MT Summit XV 参加報告

2016/03/04

須藤 克仁

201603010809_4-150x0.png
日本電信電話(株)コミュニケーション科学基礎研究所
2002年京都大学大学院情報学研究科修士課程修了、同年NTT入社。コミュニケーション科学基礎研究所にて音声言語処理、機械翻訳の研究に従事。博士(情報学)。現在、言語処理学会論文誌編集委員、AAMT/Japio特許翻訳研究会委員。

 



  MT Summit XV (第15回機械翻訳サミット)は、2015年10月30日~11月3日に米国マイアミのHyatt Regency Miamiにて開催された。約200名の機械翻訳関係者(研究者、機械翻訳ソフト業者、翻訳業者、翻訳者等)が参加し、米州からの参加者が大多数を占める中、日本からの参加者は20名程度であった。他アジア諸国からの参加は少なかったようである。本会議は3つの一般セッション(研究者・商用ユーザ&翻訳者・政府ユーザ)を中心とし、他に招待講演、パネルディスカッション、技術展示を行う Technology Showcase で構成されていた。以下、それぞれについて筆者が聴講したものを簡単に紹介する。

 一般セッションでは筆者は主に研究者セッションを聴講した。近年の言語処理関連の学術会議では深層学習技術が大きな潮流となってきているのに対し、機械翻訳に関する幅広い話題が扱われていることが印象に残った。特に、機械翻訳を人手の翻訳に役立てるための翻訳後編集(Post-editing)とコンピュータ補助翻訳(Computer Aided/Assisted Translation)については数件の口頭発表があり、機械翻訳ユーザが多く参加する会議であることが強く意識されていたようである。これらは統計的機械翻訳の応用として注目され、EUのプロジェクトで研究開発が進められた関係で多くの欧州の研究機関が関わってきたこともあり、前年のAMTAに引き続き興味深く聴講した。機械翻訳の精度と後編集の作業効率の関係、後編集やコンピュータ補助翻訳に適したユーザインタフェースや情報提示の方法、といった実用上重要な課題への取り組みが継続的に進められているようである。また、日本からは美野氏(NICT)の深層学習技術を利用したフレーズベース機械翻訳の改善に関する研究、富士氏(NICT)の特許請求項翻訳のための前処理に関する研究、後藤氏(NHK)の日本語のニュース文の平易化に関する研究、中岩先生(名大)の日本語のゼロ代名詞及び先行詞の同定に関する研究、宮田氏(東大)の日本語の機械翻訳しやすさを高めるための制約ルールに関する研究の5件の口頭発表と、Lu氏(京大)の漢字の知識を利用した韓日翻訳の精度改善に関する研究のポスター発表があった。

 

201603010809_5-400x0.png


 招待講演は、深層学習型機械翻訳に関するものが2件と、ECの機械翻訳プロジェクトについて、今後の機械翻訳の展望について、音声認識と結合した話し言葉翻訳について、の計5件であった。全体的には研究者寄りの内容が多かったように思うが、いずれの招待講演も非常に盛況であり、多くの質問 、議論が投げかけられていた。深層学習型機械翻訳はこの1-2年で急速な発展を見せた技術であるが、実は30年近く前の1987年には基本的なアイデアが論文発表されていたこと、今後は言語から言語への翻訳を超えて、画像や映像を「翻訳」する方法が生まれようとしていること、等が非常に印象的であった。また、従来型の機械翻訳が細かい単位の翻訳例を記憶しておいて新たな文を翻訳するために細かな翻訳例を再利用しようとするのに対し、深層学習型機械翻訳は細かな違いよりも流暢な翻訳をしようとする傾向にある、といった知見が示され、非専門家にとってもその特徴を直観的に捉えやすいものであった。今後の展望に関するGoogle翻訳の担当者の講演では、その経験を踏まえた現状認識として、比較的類似した言語間でデータが十分にある状況であっても、肯定否定の誤り、語義の誤り、文脈とのミスマッチ、等の致命的な誤りが多く残ることや、崩れた表現への対応が難しいものであることが述べられた。その上で、深層学習等の新しい技術的アプローチによって文や文脈をより深く理解すること、クラウドソーシングを通じて致命的な誤りを発見・修正していくこと等を通じ、10年後には深刻な翻訳誤りが大きく削減可能(比較的容易な言語対では10分の1程度まで、難しい言語対では現在容易な言語対で実現できている程度の水準まで)であると展望が示された。ただ、それは人手の翻訳が不要になることを意味せず、高品質の翻訳は人手で行われるべきものであって、それを手助けする道具として機械翻訳がより一般的なものになるであろう、というものであった。

 パネルディスカッションでは、3名の翻訳者をパネリストとして、人手の翻訳と機械翻訳の関係、主に機械翻訳が翻訳者にとって有用であるかどうかについて議論された。翻訳メモリが広く使われているのに対して、機械翻訳がどう役立つか、具体的にどの程度の価値を翻訳者にもたらすかについては共通した認識はないものの、翻訳者の業務の習慣(work habit)は今後機械翻訳の技術によって変容していくであろう、という議論が印象的であった。我々機械翻訳の研究者は常々機械翻訳の精度が云々という議論をしがちであるが、機械翻訳が完璧なものでない以上はそれが何にどの程度貢献し得るのかという視点が不可欠である。後編集であれば後編集のしやすさが重要であろうし、コンピュータ補助翻訳であれば翻訳者が望む翻訳候補をいかに提示できるかが重要であって、これは単に参照訳への近さをBLEU等の尺度で測って分かるものではない。こうした乖離をなくすことが翻訳者と機械翻訳がストレスなく協力できるようにするための一つのステップであると言える。またこの議論と関連して、機械翻訳を利用した人手翻訳の生産性を単純に時間だけで測ることは望ましくないのではなかろうか、という疑問が呈された。機械翻訳を介することで翻訳に違いが出る可能性は高く、そうした面での詳細な評価も今後さらに必要になると考えられる。いずれのパネリストも機械翻訳の導入については比較的好意的であって、機械翻訳は役立てたいが、どう上手に機械翻訳を使うか、互いに助けあって翻訳をよりよいものにできるか、ということを意識しているように感じた。ただし同時に、情報の秘匿性を担保することと利用履歴の活用の両立の問題のような今後課題となりそうな点についても話題に上っていた。

 

201603010809_6-400x229.png


 Technology Showcase では20程度の技術展示があり、製品の紹介や最新研究成果のデモ等が行われた。多くの参加者を集めていたのは最近一般公開されたMicrosoftのSkype Translatorのデモであり、音声認識に有利な接話マイクを利用してはいたものの、かなり騒がしい会場で英語とドイツ語の音声翻訳がかなりの精度で動作していたことが印象に残っており、技術力の高さが際立っていた。その他はSDL、Systran等の翻訳者サポート関連製品、機械翻訳ソフトウェアの商品紹介があり、翻訳者や翻訳業者が参加する会議であることを強く感じさせた。

 本会議の最終日にはMT Summitを主催している国際機械翻訳学会(IAMT)のAward of Honorの表彰があり、フレーズベース機械翻訳を考案・牽引し、機械翻訳ソフトウェアのMosesの開発を主導しているジョンズ・ホプキンス大学のPhilipp Koehn教授に賞が授与された。フレーズベース機械翻訳の最初の発表が行われた2003年から10年余りの間で、さらには統計的機械翻訳のアイデアがIBMの研究者によって国際会議で発表された1988年から四半世紀余りの間で、統計的機械翻訳は機械翻訳の中心的な技術と認識されるようになっており、それを象徴する出来事と言えるだろう。

 また、会期初日にはAAMT/Japio特許翻訳研究会の活動の一環として、特許・技術文書翻訳ワークショップ(Workshop on Patent and Scientific Literature Translation)を開催した。世界知的財産機構(WIPO)や日本国特許庁等の公的機関や翻訳業者からの招待講演も交え、産業的需要の高い特許等の技術文書の翻訳について幅広く議論した。特許や論文は比較的整った文体であり、直訳調の翻訳であっても意味が取れることが多いことから比較的機械翻訳の対象としては扱いやすいものと考えられる。国際的には大意を掴み検索結果の取捨選択を行ったり、後編集を前提とした下訳にする等の用途にはかなり用いられているようである。

 最後に会議全体を通じた筆者の所感を述べる。筆者が最も強く感じたのは、機械翻訳は産業上の応用が明確に存在する技術であって、応用によって重視されるポイントが大きく異なる、ということである。特にMT SummitやAMTA、EAMT 等の会議では機械翻訳の研究者・開発者だけでなく翻訳者や翻訳業者からの参加者も多く、応用の視点から機械翻訳を見つめ直せることを再確認した。応用、特に翻訳後編集やコンピュータ補助翻訳の利便性向上のための研究やユーザからの問題提起といった内容は機械翻訳専門の会議であるからこそのものであると感じた。筆者も機械翻訳の一研究者として、機械翻訳それ自体の性能向上を目指すだけでなく、実用において重要度の高い機能は何か、ユーザにとっての有益性の評価軸を何にするべきか、といった視点を忘れることのないようにしたい、という思いを強くした。日本では翻訳後編集やコンピュータ補助翻訳に関する研究はあまり盛んであるとは言い難い状況で、翻訳者と機械翻訳の開発者・研究者との協業も道半ばである。日本語と英語との間の機械翻訳は様々な言語的差異の大きさからハードルが高いものであるが、現状の技術で何か翻訳者の役に立てることはないか、また、そのための最優先課題は何か、といったことを考えるためには、我々機械翻訳に携わるものがそういった意識を持つことが不可欠であり、MT Summitのような会議の場はそうした面で重要な役割を果たしていると言えるだろう。
 

201603010809_2-400x0.jpg