5. TAUS user success stories:Chris Wendt (Microsoft Research)

2015/07/03

講演5

Microsoft Translator and TAUS Data

- The Importance of in-domain training material for statistical MT

Microsoft TranslatorとTAUS Data

– 統計的機械翻訳にドメイン専用のトレーニング材料を用いることの重要性


 

 

講演者
Mr. Chris Wendt (Microsoft Research)

 
MicrosoftはTAUS Data associationの設立メンバーになっている。
当時上司だったSteve Richardsonがこれに携わった。彼は、共有データ(そして機械翻訳エンジンをトレーニングするためのデータのレポジトリを構築すること)の価値を早くから見出していた。現在は引退したものの機械翻訳に携わっている。
人間の翻訳の事例は、機械翻訳システムの主要な要素である。
★関連ドメインのトレーニングデータ
★様々なドメインに特化したトレーニング用データを利用できるようにすることの大切さ
 
なぜMicrosoftほどの大きい会社が機械翻訳を扱うのか。
 
◎経済的な必要性あり
 ローカライゼーションが増加していること。
 マイクロソフトのような企業では、多くのものを言語のマテリアルとして作りだしているからである。
 ローカライゼーションには材料(生成され、書かれ、話されたもの)が必要であり、Microsoftは多くの材料を作っている。
 今日でも、言語にかかわらず、それらの多くの材料のうち、翻訳される割合はすごく少ない。例えば、ユーザインタフェース経由で販売される商品については、翻訳されるが、collective material(ホワイトペーパーや、コラム、ブログ等)については翻訳されない。すべてが(そしてすべての言語で)利用可能なわけではない。
 
 最近、機械翻訳をインバウンドで使用することが行われている。
 問題の分析→例えば、ツイッターの分析。
 今や、問題が起こったら(商品の問題や商品についてのコメントを)人はツイートする(They tweet about it)
 あなたが内容を理解し、ツイッターが提供している内容(twitter feed)を解釈できれば、頭ひとつ抜けること(you are a head of your subsidiary personnel)が可能!ツイッターが提供する内容によって、情報通になれる。
 Twitterが、問題点を教えてくれる。
 
<Triage for Human Translation>
人手翻訳について
 トリアージ(triage、三宅補足:選別・分類を意味する。日本語のトリアージは、救急医療等でよく使われる、治療の優先順位などでよく使われているようだ。ここでは、翻訳を仕上げるために必要なプロセスが何かを選ぶことと理解してよいのではないだろうか)の最も大きなプロセスとして、特定の文書の翻訳に人の翻訳者が必要かを判断するプロセスが伴われる。
 特定の文書を人手翻訳で訳さなくてはならないことがある。
 前もってトリアージを行うには、知恵のある人に助言してもらいつつ、文書の翻訳が必要かを判断する。実務的には、その文書の翻訳が必要かどうかを判断するのはユーザ。機械翻訳の結果を何度も読んで、これが読者(audience)に提供すべき重要な内容かどうかを判断する。必要な場合には、人の翻訳者にお願いしたほうがよいということになる。
 このように、あなたは、トリアージ内に、発行のプロセス(publishing process)内に組み込まれている。
 
 Chrisさんとそのチームは、Microsoft Researchの一部。
 機械翻訳は(お分かりのように)単純に結果を出せるものではないので、我々は、研究と、実務的な利用とが混じり合う良好な環境で取り組みを行っている。
 真に変更を主導することが可能。
 製品が常に、時間とともに変化するのを見ることができる。
 
面白い領域:same-language translation
前処理(pre-process)が必要になる。前の講演で(秋葉さんから)spoken language(話し言葉)の翻訳について話があった。
 話し言葉は、翻訳をすることが難しい。
 しかし、話し言葉を、同じ言語の書き言葉のスタイルに変換(transform)する技術を使用することができる。これによって、よりよい翻訳が可能になる。
 今日話があったよいこと。世界は互いにコミュニケーションをすることができる。
 
 機械翻訳の目的は、費用を節約することではないし、人間の翻訳者の仕事を奪うことでもない。
 しかし、機械翻訳は、今翻訳されていないあらゆるものをカバーできる可能性がある。よって、機械翻訳の競争する相手は、翻訳ではない(つまり人の翻訳者ではない)。
 
 
<機械翻訳の歴史>
 機械翻訳の源流をたどると、1950年代の冷戦の所産(outcome of cold war)ということができる。
 軍事目的のため、機械翻訳に資金を投入。
 最初は失敗したものの、いくつかのsocietyを作ることになった。
 1968年、SYSTRANが設立され機械翻訳システムを作った(驚くべきこと)。
 1997年、Altavista Babelfish
 SYSTRANを使用して無料の機械翻訳システムをはじめてウェブ上で提供した(ほぼ20年前のこと。)
 統計手法の導入によってbig jumpが起こった。
 統計手法の品質はしだいに向上し、言語の数も次第に増加した。
 
音声翻訳は、ドメインに特化したデータが必要になるひとつの例。
音声翻訳に向けた努力は長い間なされてきた。
2010年に、Skype Translatorを用いて電話会議を行い、このときはあまりうまく動かなかった。2014年12月には、今度は子供が参加できる電話会議を開催。
 
・2010年当時の音声翻訳の失敗の背景
◎認識の品質が当時はまだ十分良好でなかった。誤り率は30%。
◎話し言葉の30%は制約がない(unbounded)。ドメインも特定されていない。→20%の単語は誤って認識された。
 ディープニューロネットワーク(Deep Neuro Network)の適用により、ここ2~3年で、音声翻認識の誤りの割合は20%に低下した。
 まだよいとは思えない。5つにひとつは間違えるということ。
 それでも、有益である。
 2014年12月の子どもの電話会議で、Skype Translatorによる翻訳がプレビューされた。
 今までのところ、Skype Translatorで音声翻訳が実用化されているのは、英語・スペイン語間のみ。(理由:これらの二つの言語は、音声認識が良好で、機械翻訳の質も良好。日本語を扱うにはまだ時間がかかりそう。)
 ここで肝心なのは、制限のない人対人の対話(unrestricted human-to-human conversation)を可能にすること。もっとも個人的な空間(personal space)をターゲットにしている。人々が、親戚やペットの犬や日常生活などについて話す場面を想定。
 ビジネスや科学的な内容の会話は対象としていない。
 口語的な、人対人の会話をターゲットとしたトレーニングデータがカギ。
 一般的な目的で書かれた大量の文章(いうなればトレーニング材料)を保有している。(general purpose of written document)
 それでも、個人的な人対人の会話に必要になるものを考えると、文書は、話し言葉の翻訳とはかなり異なるということが分かる。話し言葉に適したデータを見つけるか作らなければならない。
 TVショー(会話の転記)や映画の字幕
 映画の字幕と、人間の会話の転記。
 データレポジトリの中でも、翻訳に関連するドメインを選択する必要あり
 
Microsoftの翻訳システム>

Slide 6 from Mr. Wendt’s presentation material.

 Microsoftの構築したシステムの使い方: 翻訳メモリツールに組み込まれているAPIを使用する。
 ユーザは特定のドメインのためにカスタマイズすることが可能。
 ちなみにMicrosoftは、すごく少ない数のドメインについてカスタマイズしている。
 会社は、独自のドメインを作ることができる。
 Microsoftの商品では、ユーザは、翻訳メモリのアップロードと、翻訳システムのトレーニングをすることができる。
 →これは、統計的機械翻訳システムの鍵(key)。
 機械翻訳の要素はこれだけ:アルゴリズムとデータ。機械翻訳システムには、この2つの成分しかない。
 
 対訳データ、およびターゲット言語のモノリンガルデータのインポート
 システムの構築とトレーニングはオフラインで可能。
 それを走行中のエンジン(run-time engine)や多数のサーバに移動して、実行し、即時に(2~3秒で)翻訳の出力をすることができる。
 
・アルゴリズムの点では
 デコーディング(復号化)技術の選択が必要。
 Microsoft Translator Hubのシステムでは、3つの異なるものを使用している。
 翻訳に関連のある言語材料を用いて、言語の構文解析(linguistic parse)を行い、依存を作り出す(produce dependencies)システムを有している→統計処理はその後。
 
◎機械翻訳が役に立つという結果の出ている言語。
 スペイン語(今回述べたあらゆる技術がうまく働く)。
 ドイツ語と日本語。(言語情報により顕著な利得がみられる)
 
 Phrasal systemで最も顕著な結果が出るシステムはMOSES。
 
TAUS Dataとコンソーシアムとの関連性
◎データ
 すべて、ウェブ上で公開され利用可能。
 利用可能な良好なトレーニング材料あり。
 ネット上で利用可能なデータに、その分類でフィルタをかけることが重要になる。コンソーシアムは、その重要な構成要素である。
 TAUS Data associationに加入しているメンバーが共有しているTAUSのデータは、一部のドメインを構築するのに役立つ状態になっている。(後で例を説明)
 
Microsoftは、2003年からカスタマイズされた機械翻訳エンジンをウェブ上で公開している。ウェブ上で展開されている機械翻訳エンジン(raw machine translation)としてはいまだに最大規模のもの。
ただし、そのほとんどが、reviewされていないものである。
Knowledgebaseの10%は、人が翻訳したもの。残りの90%は、編集されていない機械翻訳の結果。
 
カスタマイズされたシステムを使うことについて
Microsoftの機械翻訳システムは、Microsoftの保有するデータとTAUS Dataの技術関係のドメインを用いてカスタマイズされている。
TAUSは、多くの技術系企業およびIT業界の企業(現実的にはこれらは互いに競合関係である)からのデータを結び付ける。例:Microsoft, Adobe, Oracle。これらは競合しているが、共通の利害のためにデータを共有することに同意した。よりよい機械翻訳を得るために、そして恐らく、翻訳メモリをよりよくするために。
このシステムはまた、ユーザのフィードバックを結び付ける。
(ユーザは、コミュニティに参加し、データを自由にエディットできる。誰もが、サジェスチョンをすることができ、コミュニティには、サジェスチョンを承認してその内容を確定させる調整役がいる。Knowledgebaseの10%は、人が翻訳した結果。(このうち、50%は、ポストエディットである。完全に人が翻訳した結果を見つける可能性は50%。ランダムアクセス)
 
 
どういう風に動くのか?
 
 
Knowledge baseの目的は、問題の解決。(翻訳をより美しくすることではない。)
機械翻訳が出力するのはよい翻訳ではないということは、すでに知っている。でも、問題を解決することができれば十分と言える。
 この理由から、Microsoftを活用した翻訳後には、問題解決の訳に立ったかを聞くアンケートも表示される。
 
翻訳が成功したかについての割合(resolve rate)
 人々が、人手翻訳および機械翻訳が問題の解決に役立つと思ったかどうか。諸言語についてデータが棒グラフ化されているが(人手:赤、機械:青)、多くの言語で、人手翻訳と機械翻訳での割合には大きな違いはみられない。
 それでは、なぜ言語と言語との間で結果の違いがでるのか?
→その点はあまり見なくてよい。必要なのは、文化的な観察(cultural observation)。これらは、比較の意味での情報ではない。同じ言語内でデータを見た、という話。しかも今回のデータは少し古い(3年くらい前のもの)。毎月データを見ているが、大きな変化は起こっていない。
 
Microsoft Translator Hubの紹介~
(あなたのシステムのカスタマイズの仕方をざっと見せます)
Microsoft Translator Hubは、Microsoft Translator serviceの無料アドオン。
 
トレーニング文書、
チューニング文書を設定。
 その後、テスト文書を入力することにより、スコアを算定し、どれくらい結果がよかったかを後で見ることができる。
<英日翻訳システムの事例>

Slide 19 from Mr. Wendt’s presentation material
 
 サンプルは、同僚が豊橋技術科学大学のデータから作成した入学料についてのもの(Microsoft Translator Hubの作業画面のスクリーンショット)。(55:50)
→Admission fee(入学料)を適切に訳せなかったので、修正するためのトレーニングデータを作成して再度トレーニングを行った。その結果、所与のコンテキストで、正しく翻訳されるようになった。
 翻訳結果の質の評価
カスタマイズされた、特定のドメインの機械翻訳システムを構築することにより、一般的なシステムと比較して改善するBLEUスコアは、平均10ポイント。
10 BLEUポイントは、かなりの改善といえる。1BLEUポイントは、人が簡単に決定できる。BLEUポイントの差が1ポイントだったら、人は数行読めば、その質の違いが分かる。
 
 
このようなBLEUスコアの改善は、翻訳モデル、およびターゲット言語モデルを重ね合わせることにより可能になる。カスタムモデルを汎用モデル(generic one)の上にlayerすることができる。これを連携して使用する。チューニングセットは、重みづけ平均を決定する。(これはMicrosoftではなく外部の企業のために行った実験)
 
中国語とドイツ語につき、様々なエンジン・条件での機械翻訳の結果の検証を行った(外部企業のためのもの)。
比較内容:
1…Bing Translator(Microsoftが提供している無料でネット上で翻訳できるもの)
2a…Microsoft Translatorを使用した汎用エンジン。
2b…Microsoftのトレーニングデータを使用して翻訳されたSybaseデータ。
2bについて、類似した分野で活動する企業同士のものを合わせて使えばよい結果が出るはずだと思われがちだが、結果は、中国語については反対だった。理由として考えられるのは、Sybaseによる中国語の翻訳が、Microsoftが好む用語集と異なっていたからではないか、ということである。うまくいったドイツ語では、Sybaseの翻訳とMicrosoftが好む用語集が類似していたと考えられる。
つぎに、MicrosoftとSybaseのトレーニングデータを一緒に用いてみた(2b)。これはうまくいった。
 
●トレーニングデータが多くない場合、コミュニケーションだけの目的で機械翻訳を使用するなら、汎用の翻訳エンジン(generic translation engine)でよい。
●Microsoftに登録される翻訳データの場合
正しくない翻訳データをブロックすることができる。
中国語翻訳(Chinese translation)は、Microsoftの用語集とは異なっていたが、よい結果がでた。
             ↓ この次に
Big jump(大きな飛躍)
グラフでは3番。
 Microsoftデータ、TAUSデータ、Sybaseデータ、およびいくつかの汎用データを加えたときに飛躍的に質が向上した。
 Sybaseの20万センテンスだけを使用しても、カスタマイズされたエンジンの構築には少なすぎてうまくいかなかった。
              ↓ メモリ不足を乗り越えるために!
 

Slide 23 from Mr. Wendt’s presentation material
 
 できる限り多くのデータを有することで、常によい結果がもたらされる。
 できるだけ多くのデータを共有しよう。→そうすれば、データを手に入れて活用することもまた容易になる。(三宅補足:TAUSでは、データをアップロードして公開すればするほど、多くのデータをダウンロードして利用できるようになる。)
 
★知的財産についての問題の克服:すでに公開された翻訳メモリのコンテンツは知的財産ではない!
 あまり多くの経済的価値を生み出さないと思うかもしれないが、投機的価値があることを考えてほしい。
 例えば、ロシア語の機密情報のデータを有していて、そのデータをアップロードしても、他に利用されるだけで、自分がとれるロシア語データがないとしたら、反対されるに違いない。でも、例えば、別の機会にタイ語のデータが必要になったときに、タイ語のデータを探してダウンロードすることが可能になる。また、ロシア語のデータのアップロードにより、新しい言語方向での扱いが可能になる。(三宅補足:ロシア語のデータがこれまでなかったとしても、ある会社や組織がロシア語のあるドメインのデータをアップロードすることで、他のユーザがロシア語のデータを活用し、自らも新しいデータをアップロードするきっかけになる。いずれは、今はほとんど空の状態で与えるものしかないように思っても、エンジンが成長することによって、将来、ロシア語関係の翻訳に活用するに値するものが出来上がるかもしれない。こういったことを言いたいのではないかと推察される。)
 
 いかにデータの共有に参加してもらうかという視点で積極的に話をされていた。ある意味、Jaapさんよりも積極的なすすめ。一会員としての説得力は、代表の人のものよりも大きいかもしれない。(相手がはじめから違和感を持っているという前提で話し続けるさまは、できるビジネスマンという感じ!!!)
 
 
<フロアからの質問>
 Microsoftは、TAUSのようにデータの共有を可能にするのでしょうか?
 はい、多分。
 経済的な利得は非常に少なく感じられるかもしれないが、我々みんなにとってよりよいものが得られるという効果がある。