イベント報告

2020/11/13

2020年度第2回JTF関西セミナー報告
機械翻訳の進展と自動音声同時翻訳への挑戦


須藤 克仁 Sudoh Katsuhito


2002年京都大学大学院修士課程修了、NTTに入社しコミュニケーション科学基礎研究所にて音声言語処理、機械翻訳の研究に従事。2015年京都大学博士(情報学)。2017年より現職。知能コミュニケーション研究室(中村哲教授)にて話しことばを対象とする機械翻訳を中心とした自然言語処理に関する研究に従事。2018年から科学技術振興機構(JST)「さきがけ」にて機械翻訳をはじめとする自然言語生成の評価に関する研究を実施中。理化学研究所革新的知能統合研究(AIP)センター客員研究員を兼務(2018年より)。

 



2020年度第2回JTF関西セミナー報告
日時●2020年8月19日(水)14:00~16:00
開催●zoomウェビナー
テーマ●機械翻訳の進展と自動音声同時翻訳への挑戦
登壇者●須藤 克仁 Sudoh Katsuhito 奈良先端科学技術大学院大学 准教授
報告者●伊藤 祥(翻訳者/ライター)

 



 機械翻訳は長い歴史を持つ研究分野である。しかし、近年のニューラル機械翻訳の進展は、誤解を恐れずに言えば、機械翻訳の歴史の積み重ねをデータ量とコンピュータの能力によって吹き飛ばしてしまったかのようだ。最近の機械翻訳にはインターネット上で簡単に試用もしくは低価格で利用できるものであっても、しばしば高精度な翻訳ができることがある。しかしながら、機械翻訳は依然として信じられないような誤訳をすることがあるのもまた事実であり、それに対する様々な取り組みが進められている。
 本講演では従前より自動音声同時翻訳を研究しておられ、近年は深層学習時代の新しい自動音声同時翻訳技術の研究と、400時間を目標とした同時通訳コーパスの収集を行っておられる須藤克仁先生が、機械翻訳・音声翻訳・自動同時通訳に興味・関心のある層に向けて、ニューラル機械翻訳の技術やその課題についての概説と、自動音声同時翻訳技術が紹介し、今後の展望を述べられた。

機械翻訳の進展について
ニューラル機械翻訳以前の機械翻訳の歴史

 従来の機械翻訳は言語の構成性に基づくものであった。その変遷の概略を以下にご紹介する。
 まずは、ルール(規則)に基づく方法で、50年代から冷戦時代の英露翻訳から始まった。80年代後半からは辞書や構文のパターンによるルールに基づく方法が研究された。
 次に、コーパス(用例)に基づく方法の研究が80年代前半から始まり、それは翻訳メモリ(TM)に似た使い方を機械にさせる方法であり、長尾真先生のおっしゃるところのアナロジーによる翻訳で、データを蓄積すれば精度が向上する。
 第三に、統計的手法による基盤が確立したのは2000年代前半で、語句の翻訳や出現の確率を統計的に分析した結果に基づく方法である。計算機の発展や、データの蓄積が功を奏して伸びてきた。Google翻訳も2000年代中頃からこの方式でスタートした。
 これらの翻訳においては、長文は語句や構文の訳を組み合わせることで訳すという手法がとられた。そのための辞書的な情報は事前に人が作成するか、コーパスから機械的に作るかして整備する。部分を組み合わせて訳文を作成するには、組み合わせ規則を人手で作る、コーパスの文を書き換える、膨大な組み合わせの中から統計的に選ぶといった方法がとられていた。
 日英では語順が異なるので、2000年代半ばは、統計的翻訳は伸びても日本語と英語の間の翻訳の精度の低いのが悩みであった。NTTの磯崎氏が、「主辞後置化」という、日本語と英語の構文の違いに基づいた、並べ替えの前処理を事前に行う際の新しい方法を打ち出された。
 こうして、2010年代前半には日英間の翻訳も大きく改善したものの、それでもなお係り受けや文法に難があり、単語は正しいがどこまで使えるのかという状況が、2015年ぐらいまで続いていた。

ニューラル機械翻訳の出現

 2014年にニューラル機械翻訳が学術発表されたが、当時そこまでのターニングポイントとは認識されていなかった。
 ニューラル機械翻訳は要素毎に書き換えるというスキームからの脱却で、考え方が大きく異なる非構成的な機械翻訳のアプローチである。エンコーダ・デコーダモデルといい、エンコーダとは入力文を符号化する機構のことで、ニューラル機械翻訳における符号化とは実数値のベクトルに変換することである。つまり機械が理解できる形に変換し、「記憶」させるのだ。そして、デコーダは、その「記憶」を使って、思い出しながら、言い直して訳文を構成することである。
 ニューラル機械翻訳のニューラルネットワークとは機械学習モデルの一種で、データに基づいて関数を推定するためのモデルである。50-60年代、80年代に続き、今はAIの発展でブームとなっている。機械学習の進展により、当初は2-3層程度の計算だったものが、現在は何十層何百層の深層学習が可能となった。よく、脳を模しているかのように言われるが、そうであるかはまだよくわからない。
 以下にニューラル機械翻訳と従来の翻訳プロセスの考え方の相違について説明する。
 従来の翻訳プロセスは部品を揃えて組み合わせる、モンタージュ写真のようなやり方であった。部分部分はおおよそ正しいが、つないで生成した文が流ちょうでないこともあり、木を見て森を見ずの感があった。入力を全部カバーしているので、抜けや重複は少なかった。
 一方、ニューラル機械翻訳の考え方は「記憶」を辿ってそれらしく生成するというものなので、モンタージュ写真に対比すると似顔絵を描くのに近い。この方法は、条件が整うと非常に強力であるが、信じられないような誤訳となることもある。いうならば、森を見て木を見ず。大体合っているが詳細を見ると違ったり、堂々と誤訳をしたりすることがある。そして、入力内容を全部カバーするかどうか保証されない、誤りが起きたら悲惨で、抜けや重複の可能性がある。
 単語をベクトルで表現すると、似た単語は似たベクトルの形で出てくる。似た単語であれば流ちょうに訳せるが、その似ているかどうかの判断は、もやっとした連続空間での近い遠いとなっている。それは、単語分散表現と言い、単語を実数値ベクトルで表すと単語間の関係がわかるというもので、例えばQueenがKingの近似の言葉と判断されたりすることである。

ニューラル機械翻訳の急速な発展

 初期のニューラル翻訳は入力の過程を振り返ることが出来ず、入力を読み込み終わった時点でのベクトル一つからすべての翻訳結果を出力しなければならなかった。2014年の後半に注視機構付きニューラル機械翻訳が発表された。入力の途中過程を随時参照可能となり、途中のベクトルが注視(attention)されるようになった。注視でどこを見て翻訳すべきか学習できる。例えば、英単語を出力するときに仏語のどこを見ているかを模式化できる。
 注視により長文における精度が改善した。例えば50単語なら、それぞれの単語に読み込み過程の「メモ」を残し、それを随時参照できるようになったためである。この方法に基づく研究がその後盛んになった。
 Googleが2016年に計算をさらに多層化(8層)して性能向上する技術を発表した。エンコーダ、デコーダの層を増やすことで精度をアップさせるというもので、計算機のパワーで勝負する方法である。
 2017年夏にはTransformerが発表された。これには、自己注視(self attention)が導入された。それまでの注視はデコーダがエンコーダの途中状態を参照するものであったが、自己注視では入力文のある単語の読み込み時に、入力文の他の単語の情報を注視してベクトル化することができる。これは、符号化時に係り受けのような形で他の単語の情報を見ることに相当する。そして、各単語を並列に同時分析出来るようになって高速化した。
 このように、ニューラル機械翻訳は出現から約3年でそれまでの統計的機械翻訳を完全に抜き去ったといえるまでになった。ただし、比較的うまく出来るようになったのは、定型的で短くて直訳調の翻訳である。一方、現在は長文に特に注目した研究があまり見られず、研究の進展を憂慮している。

 この他の、英日間の機械翻訳研究の近況を紹介すると、対訳のコーパスが増加し、シェアドタスクが進み、共通のリソースとして情報検索の国内開催の国際ワークショップのNTCIRや科学技術振興機構(JST)の論文、特許庁の特許邦訳、OpenSubtitlesなどのように、活用できるものも出てきた。また、日本人の研究者がローカルにやっていたことを国際ワークショップであるWAT、WMTなどによってワールドワイドの活動が展開されるようになり、協調して実施されるようになった。

自動音声同時翻訳への挑戦
自動音声同時翻訳に向けて

 通訳において、逐次通訳と同時通訳の違いは、逐次通訳は聞き終わってから通訳発話を開始するのに対して、同時通訳では話者に耳を傾けながら通訳発話もしなければならず、より厳しい時間制約が課される。
 一般的に、同時通訳は文の構造を変化させたり、つなぎの言葉を利用したりして、訳を順送りにすることで遅延を小さくしている。これを、機械でやってみるための遅延削減の戦略は、まず、部分訳が可能になった時点で訳出を開始する。訳出の順序は入力に近いものに変更する。簡明な訳出表現にする。そして、入力を予測するというプロセスが考えられる。
 今はまだ通訳ではなく、翻訳をしている状態で、部分訳が可能になった時点で訳出を開始することだけが対応できている状態である。通訳色がないので、同時翻訳と呼んでいる。

自動音声同時翻訳とは

 2017年度からの奈良先端大学の中村哲先生を代表とする共同研究「自動音声同時翻訳の研究」において、自動音声同時翻訳、つまり音声から音声への同時翻訳の研究を行っており、須藤もメンバーとして参加している。
 そのプロセスは、音声認識→機械翻訳→音声合成で、すべて漸進的に動作、正確性に加え低遅延であることが重視される。
 自動音声同時翻訳は、出力が音声なので、画面(字幕)を見ることが不要となる。将来的には、話者の音声で翻訳音声合成をし、抑揚や強調も自然な翻訳となる音声合成を目指していきたい。

音声認識・機械翻訳・テキスト音声合成の逐次処理

 自動音声同時翻訳の第一のプロセス、音声認識について概略を説明すると、音声から文字の逐次処理について研究され、音声認識もニューラル機械翻訳とかなり似た感じで解析できるようになってきた。しかし、少し後ろまで聴いた方が機械翻訳の結果は良いのだが、そのような漸進的処理をすると音声認識精度が低下してしまい、そのバランスが難しいが、0.5秒ほど後ろまで聴くというのであれば、音声認識精度の低下が抑えられることがわかってきた。
しかし、漸進的機械翻訳は、英日間では難しい。データ不足で順送りの訳の学習はまだ道半ばであり、無理矢理順送りの訳を試みている状況で、そして学習時は通常の対訳コーパスを使わざるを得ない。
 その手法には、極めて単純な手法として、2019年の中国の百度(Baidu)のWait-kという、K個入力を待った後、1個入力のたびに1個出力するという方法がある。
一方、我々の研究では、プログラムに特殊記号<Wait>を適宜加えることで遅延を制御するという方法を編み出した。
 残念ながら、漸進的音声認識は、書き言葉の翻訳ではかなり絶望的である。文後方の情報を先に訳出しないと構造が崩れるので、順送りの訳を無理矢理作るのは難しい。句や節等が自然な区切れにならない、後から補足するためのつなぎの言葉が加えられない。そのため、工夫しても単純な音声認識方法との差があまり出ないことが悩ましい。話し言葉での効果検証については今後実施してきたい。
 最後のステップの漸進的音声合成についても、文字→音声の逐次処理について研究していたが、機械翻訳で繰り返しが発生する等翻訳品質の問題があると、前段のプロセスの誤りがさらなる誤りを誘発することがある。こうした誤りの伝播を防ぐ仕組みは様々な方法が研究されているが、現状の我々のシステムにはまだ実装されていない。
 加えて、速度の問題もある、合成音声出力の蓄積に時間がかかるのである。話者の速度が早いと、出力音声が間に合わないことがある。

自動音声同時翻訳のプロトタイプシステム

 漸進的処理による自動音声同時翻訳技術の研究は非常に挑戦的な研究で、現在は低遅延と実時間処理、つまり、通訳の話者のスピード相応の処理速度の実現に注力している。将来は要約、簡明化、予測の研究を行っていきたいと考えている。
 それに、まだ評価方法も未確立である。精度と遅延のトレードオフのポイントを考えることになる。遅くても正しければいいというわけではないからである。精度を定量化して工学的に計測する評価指標も検討しなければならない。

今後の展望

 おわりに、私見ではあるが、機械翻訳の将来像を描いてみたい。
 少しずつ出来ることも増えたが、まだ出来ないことも多い。Google翻訳の出現により、ないよりいいという用途では有益となってきた。
 ただし、高度な翻訳が確実に出来るかと言う点では疑問である。コーパスから学習可能な言語知識・翻訳知識には限界があるからである。単言語の知識より難しく、9割翻訳できても1割が意味不明になりかねず、それではいけない。言語の差異、文化の差異がわからないと真の翻訳にならないからだ。また、文字になっていない、音声言語にしかない情報をどう伝えるか。翻訳通訳は字面しか翻訳していない。機械がパーフェクトに出来るとは思っていないので、平均値では機械ができることも増えるが、コミュニケーションの翻訳も必要であると考えている。1割残っているところに本質があるのかもしれないと思う。
 機械翻訳は計算言語学の観点でも重要な問題である。実用技術と応用技術としての視点を持ち、今の技術をどう活かすか研究されている。着実に進歩を続けているのだが、いわば力業による面が大きい。私は、より困難な課題である同時音声翻訳への挑戦に取り組み、まだ満足にはほど遠いが、研究を続けたい。
 そのために、重要なのは「評価」であると考えており、翻訳の評価におけるJTF翻訳評価ガイドラインのように、人間の翻訳のレベルを適用するべきであると思う。しかし通訳となると五里霧中で、同時通訳者は、スピーカーのスピードにあわせて、要約したり丁寧に訳したりする使い分けが、機械に出来るようになるかは疑問である。現在はここまでのコントロールは出来ないし、即したデータがない。これまでは追いつく観点しかなかったが、人間はどう判断しているのかという観点は重要であろう。
 今後GoogleアシスタントやSiriなどスマートフォンの検索に音声のバーチャルアシスタントが対応するといった流れはある。ただし、利用が好まれるかはお国柄もあるかもしれない。日本では音声インタフェースが好まれないという傾向もあるらしい。音声を使用するのは、技術的にできるが、間違いは完全には防げないため、敬遠されているのかもしれない。
 私は、研究者として工学的なパフォーマンスをあげ、学術貢献をしたいのと同時に、本質を知りたい思いが強い。言語学者は深い知識と様々な用例の分析を通じて、私達は統計的な解析を通じて言語事象をどれだけ説明できるか研究しており、言語学者が考えることに我々の考えも意外と近いのではないかと考えている。力業ではない本質を追究したいと思う。