5-2 いまさら聞けない機械翻訳の基礎~その方式から有効な利用法まで~

2017/01/20

パネリスト:

長瀬 友樹 Nagase Tomoki

201701172206_1-150x167.jpg

株式会社富士通研究所、アジア太平洋機械翻訳協会、MT課題調査委員会委員長
1987年富士通㈱入社。2004年に㈱富士通研究所に移籍。2009年よりアジア太平洋機械翻訳協会(AAMT)課題調査委員会委員長、2012年よりAAMT/Japio特許翻訳研究会専門委員を務める。

須藤 克仁 Sudo Katsuhito

201701172206_2-150x176.jpg

NTTコミュニケーション科学基礎研究所、アジア太平洋機械翻訳協会 AAMT/Japio特許翻訳研究会副委員長
2000年京都大学工学部卒、2002年同大大学院情報学研究科修士課程修了。2015年京都大学博士(情報学)。2002年日本電信電話(株)入社、以後コミュニケーション科学基礎研究所に勤務。ACL、言語処理学会、情報処理学会、日本音響学会会員。

河野 弘毅 Kawano Hiroki

201701172206_3-150x150.jpg

ポストエディット東京代表
東京大学工学部卒。宇宙開発業界からローカリゼーション翻訳業界に転職。1991年から翻訳会社を経営。2002年にいったん廃業した後、2005年に翻訳業界に復帰。2016年4月よりふたたび独立。日本翻訳連盟機関誌「JTFジャーナル」編集長(2011年~)。

モデレーター:

中岩 浩巳 Nakaiwa Hiromi

201701172206_4-150x151.jpg

名古屋大学大学院情報科学研究科特任教授、アジア太平洋機械翻訳協会(AAMT)会長
国際機械翻訳協会(IAMT)会長、日本翻訳連盟監事。1987年名古屋大学大学院工学研究科博士前期課程修了、2002年名古屋大学博士(工学)。1987年日本電信電話( 株)(NTT)入社、英マンチェスター大学客員研究員(1995年~1996年)、国際電気通信基礎技術研究所(ATR)研究室長(2002年~2004年)を経て、2014年NTTを退職し、同年から名古屋大学勤務。

 

報告者:小川順慈(株式会社日本翻訳センター)
 



ルールベース機械翻訳とは
(長瀬氏)

ルールベース機械翻訳(以下RBMT)は古い機械翻訳の方法と言われており実際否定はできないが、メリットもあるため今後の機械翻訳の活用と発展に際してその特徴を確認していく必要がある。RBMTでは人間の言語知識と汎化能力により作成された文法・辞書を用い、構文解析・意味解析を行ったうえで文が生成される。これは開発ベンダにとってみれば、辞書と文法の開発に言語の専門家を要し、膨大な工数が辞書・文法開発に費やされることになるうえ、新たなルールが追加されると以前できていた翻訳が崩れるなどといったレベルダウンとの戦いが付きまとうため、コストが高くなってしまう。利用者からしても、適切な訳語が選択されない、訳がぎこちなく不自然に感じる、といった難点を感じることになる。これらの問題と限界からコーパスベースの機械翻訳へと移行している。だが、一方でコーパスがなくてもある程度の翻訳が可能であったり、訳抜けや訳過多の現象を起こしにくかったり、訳出までの処理プロセスを確認できたりといったメリットもある。今後は統計的機械翻訳、RBMTを組み合わせ互いの弱点を補完できるようなハイブリッドシステムの構築が課題と思われる。

統計的機械翻訳(須藤氏)

「統計的翻訳(以下SMT)は確率的なコピペの処理に過ぎない」という文を提示し、SMTを『要素合成原理』に基づく方法と説明する。SMTは単語、句、構文に基づいた対訳データから統計モデルを通して訳出される。統計モデルでは組み合わせの確率の高いものが選ばれる。統計翻訳においても人の手による対訳データ・辞書を追加することによるチューニングが行われる。しかし、データ確保が行えるのか、分野適応が十分にできるのか、追加された辞書がうまく使えるのか、といった難点も抱えている。そのSMTの精度であるが、2013年時点での共通タスクでの評価では英日特許翻訳ではRBMTより良く、7割が文意理解可能で、そのうち2割が十分流暢だと判断された。一方日英に関しては全体に精度が低く、日本語の係り受け、語順自由度などが原因なのかRBMTより低い結果となっている。ただし、現在はより進歩しているため、日英でもRBMTと同程度に向上していると考えられる。とはいえ、あくまでも機械翻訳間での優劣の話であり、統計翻訳は参照訳への近さで調整・評価されているため、実際の翻訳としての精度とはまた意味が異なる。新時代の機械翻訳として最近グーグルが導入したニューラル機械翻訳が注目されている。これもSMT同様統計的に学習するが、まず文の内容を覚え、そこから訳文を生成するような仕組みであるため、SMTのようなコピペではない。非常に流暢な訳出を行うため、従来型のSMTを凌駕しつつある。しかし、字面が綺麗なので気づきにくいが、人間ではやりようのない大きな間違いをすることもある。このように、機械翻訳は翻訳者としてはまだまだ力及ばないため、今後、どう使うか、どう使えるのか、また、何にフォーカスするべきか、その切り口を模索している。

翻訳業界における利用法解説と利用事例(河野氏)

翻訳業界の業界規模は約2000億円といわれているが、その市場規模を抑えてきている原因として価格の壁が存在する。和英翻訳単価10~20円では400字1枚あたり5000円近くを支払うことになり市場規模を抑えてきた。これがもし1文字1円の翻訳が部分的にでも実現できるのであったとしたら、市場規模が2000億円のままであるとは考えにくい。また、機械翻訳の研究開発では目標として「自動翻訳」を掲げるケースが大部分だが翻訳業界の需要は「翻訳支援」にあり、機械翻訳の成果を翻訳業界に活かすためには両者の違いを認識する必要がある。機械翻訳を翻訳支援に利用するには翻訳支援ツール(CAT)や翻訳管理システム(TMS)と組みわせる必要があり、組み合わせ方にもいろいろなバリエーションがある。まだまだ下訳として使えるかも疑わしいと思われている機械翻訳であるが、ニューラル翻訳を導入したグーグル翻訳のように短期間で急速に進歩する可能性がある。欧州では既に機械翻訳の下訳利用の普及が始まっており、その中には英語から中国語、韓国語といったアジアの言語も含まれている。翻訳業界では「機械翻訳は使えない」という議論がまだ多いが、その多くは個人的経験を述べている。機械翻訳が使えるかどうかは業務内容・ソフト・運用方法等で大きく結果が異なるため、個人的経験だけに基づいて一般的な評価を下すことは危険である。
 


質疑応答(抜粋)

Q: SMTによる翻訳でどの程度の実用性があるのか?
A: データ量がある関係で特許限定かつあくまで機械による判断だがこれで概ね6-7割の実用度と算出されており、恐らく人の目で見て5-6割程度は使えるものになってきていると考えられる。

Q: ニューラル機械翻訳でBMWとベンツを間違うようなことが起きるのはなぜか?
A: 人間では間違いようがないが、機械は似たカテゴリーとして入れてしまうことがあるため。BMWとベンツは同じドイツの車会社として認識されていた。一見、ちゃんとした文章に見えても大幅に意味を取り違えているといった間違いを犯すことがある。

Q: 今後、日本の機械翻訳研究はどのような方向を目指すべきか?
A: 技術的には大きな差はないが、マイクロソフトやグーグルといった巨大企業が収集する膨大なデータ量には日本企業は正面から立ち向かうことはできない。これらの海外企業は一般の広い層へ向けた自動翻訳サービスを目指しているため、違った分野や使い方を模索・特化することにより使える機械翻訳の開発を目指していくのではないか。

総論

最近、グーグルによるニューラル翻訳が注目されているが、RBMT/SMTとはまた違った大きな間違いをすることはある。また、元の文が間違っている場合にも使えない。そのため、どのような機械翻訳であってもプルーフリードは必須。機械翻訳の開発側はグーグル翻訳を使う際の注意を機会あるごとに呼びかけている。それぞれの機械翻訳の特性を考え、プルーフリードのツールとして複数の機械翻訳・支援ツールを使い分けるなどの手段により改善が見込まれる。