3. 機械翻訳における言語資源の役割について:秋葉友良(豊橋技術科学大学)

2015/07/03

開発と評価のための言語資源―統計的機械翻訳

 

豊橋技術科学大学 秋葉友良先生
 

 

英語から日本語翻訳の場合
J: 日本語文Jが発話される事象、E: 英語文が発話される事象
P(J/E): 英語Eが与えられたとき、日本語Jが発話される確率
単純な枠組みで考えると、英語文をシステムに入力すると、日本語文ジェネレータを動かし次から次へと様々な日本語を生成し、出てきた日本語に対しP(J/E)の計算を続け、その中で確率が一番高かった日本語の文を出力することで、英語から日本語に翻訳できるという仕組みになっている。(以下の図参照)

秋葉先生ご講演スライド5

 
これを式に表すと以下の通りになる。

秋葉先生ご講演スライド6

ベイズの定理により、翻訳の方向を逆転する。
スライドに示された式について:
P(E/J)は確率的翻訳モデルで、EがJの翻訳としてどれだけ尤もらしいかを図る尺度になり、P(J)は確率的言語モデルで、Jが言語(日本語)としてどれだけ尤もらしいかを示している。この二つの項の積が最大になる日本語を出力する。最近はこの二つの尺度を基本に、様々な尺度から総合的に図るようになっている。
どのようにP(J)とP(E/J)を求めるか?
サイコロを何回も振ると1が出る確率が分かる。同じように、P(J)の場合、何回も日本語をしゃべらせる。P(E/J)はバイリンガルにしゃべってもらい、日本語の場合と英語の場合を記録する。しかし、実際に人を観察するのは大変であるため、代わりに言語資源を利用する。
 
どんな言語資源が必要か?
日本語言語モデルP(J)を求めるには、日本語文集合を用いる。例えば、新聞記事やウェブ上のテキストデータを用いることができる。日英翻訳モデルP(E/J)を求めるには対訳コーパスを用いる。例えば、新聞社によっては、日本語版と英語版を出しているところがあり、対応したペアを記録して構築する。 
 
どのくらい言語資源が必要なの?
言語モデルに対し、学習データ、機械翻訳の精度との相関性を調べた。洗練された方法と単純な方法で推定した場合を比較したところ、良い方法を使うと精度が良くなるが、データの量が増えると、そのグラフの差が縮まる。さらにデータ量が多くなると単純な方法での計算しかできなくなる。したがって、データのサイズが重要であることが分かる。
 
評価のための言語資源:NTCIR(エンティサイル)
機械翻訳の精度を調べる評価には、様々なバラエティーの翻訳を評価するために、自動評価を用いる。具体的には対訳データを使い、システムの出力結果と本来翻訳してほしい結果を比べてどれだけ似ているかを図る。似ているかどうかを図る様々な評価手法も提案されている。ここでも言語資源が重要である。
評価データの構築のプロジェクトが世界各地で行われており、日本で最も活発なプロジェクトに、国立情報学研究所が主催するNTCIRがある。情報アクセス技術の評価から始まったが、機械翻訳の評価、特許翻訳の評価、医療言語処理の評価なども行われている。1999年から始まり、一年半をサイクルに評価と発表を繰り返している。毎回、評価するタスクを少しずつ変えており、この活動を通して出てきたデータは誰でも再利用できるようになっている。
 
What's SpokenQuery&Doc?
NTCIRの中の評価タスクで、音声を使って情報検索を改善し、評価することを目指している。現状の標準的な検索で入力できるのは少数のキーワードだけであり、もっと複雑な背景のあるユーザーの要求をくみ取ることに失敗している。一方で、音声なら短い時間で多くのことを言える。SpokenQuery&Docでは、この音声による情報検索がどのくらいうまくいくのかを評価する。被験者には、調べたいことに関して、メモを見ずに思いついたこと、手がかりになりそうなことを何でも言ってもらう。自由発話の音声のため、非流暢で、間投詞や言い直し、冗長な表現があり音声認識は難しいが、長い手がかりを得ることができる。この音声による検索が手法や音声認識の有無などによって、どのくらいの性能かを調べる。3月にSpokenQuery&Doc-2が始まったところである。
 
言語資源が利用できない場合
翻訳規則を対訳文から機械学習する、統計的機械翻訳が注目されているが、十分な量の対訳コーパスが利用できない言語間では適用が困難である。この場合、中間言語(例えば英語)を使いて、二段階で翻訳する方法がよく使われる。しかし、中間言語となる英語に対しても対訳コーパスが存在しない状況もありえる。辞書だけ(単語の対応)はあると想定し、乏しい言語資源で翻訳を実現できないかということを試みている。
秋葉先生ご講演スライド23:背景・目的 における図


手法としては、原言語と中間言語間の辞書による翻訳の段階で、可能性のある翻訳はグラフの形で候補として全て残しておく。さらに事例を使って、中間言語らしさを考慮し、可能性の高い順に並べるなど操作を行なう。最終的に、豊富な対訳コーパスのある中間言語と目標言語間の統計的機械翻訳で翻訳をする。統計的機械翻訳の方で確率の高い翻訳を選ぶため、辞書の翻訳における様々な候補の中から、翻訳が一番うまくいきそうなパスを自動的に選び、翻訳結果として出すことができる。
秋葉先生ご講演スライド24,25




実験例として、まず以下は、対訳コーパスがなくても日本語とベトナム語間でのうまくいった翻訳の例である。
秋葉先生ご講演スライド26


さらに、三言語の対訳コーパス(ヨーロッパの多言語の会議録の対訳コーパス)がきちんとある場合と比較する。今回はフランス語からスペイン語への翻訳を対象に、まず直接対訳コーパスを用いる場合、次に英語を中間言語として二段階で翻訳した場合、さらに最初は辞書を用いて翻訳し、二段階目は対訳コーパスを用いて翻訳した場合を比較した。
秋葉先生ご講演スライド28


     ↓
実験結果


秋葉先生ご講演スライド29
 きちんとデータのあるものにはかなわないが、これと比較すると、直接使う場合には57.5%程度。中間言語にした場合でも、それと比べると70.7%。これくらいの性能が出る!
 以上、秋葉先生の研究内容のプロジェクトと実験の紹介。