翻訳者を支援する4つの方法

2013/11/08

翻訳者を支援する4つの方法

 

NICT主催「未来の翻訳研究に関するワークショップ」で講演したフィリップ・コーン教授は、CASMACATプロジェクトで研究している翻訳者の支援方法をInteractivity、Choices、Confidence、Adaptationの4つの視点に整理して解説してくれた。

Interactivity
 

現状では翻訳者は自分で最初から翻訳するか、翻訳メモリを参照してそこから文を編集するか、機械翻訳の出力をポストエディットするかのいずれかの方法で訳文を作成しているが、インタラクティブな技法を使うことによってもっと生産性の高い翻訳が可能かもしれない。
Interactive Machine Translation-機械翻訳では1文を翻訳するにもたくさんの選択肢の組み合わせを訳文の候補として検討せねばならず、その計算量が爆発的に増えるのをどう防ぐかが工夫のしどころだが、人間翻訳者が訳語の選択結果をMTエンジンにインタラクティブに返すことによって、その訳語までの訳文を確定し、その訳語以降の訳文の選択肢を制限して計算量を軽減させることができるはずだ。
Word Alignment Visualization/Shading off Translated Material-現在翻訳中の単語に対応する原文を順次強調表示していく、あるいは翻訳済みの箇所を順次グレー表示にしていく、などの方法で翻訳対象範囲を特定しやすくする視覚的支援を提供する。
 

Choices
 

機械翻訳では多数の選択肢から適切な訳をスムーズに選択する必要があるが、そのための翻訳支援ツールとしてエディンバラ大学ではすでにcaitraという翻訳支援ツールを開発している。caitraではユーザーは文節ごとに候補となる多数の訳文を一覧表示により確認できる。その中でも確率の高い訳文候補はハイライト表示でユーザーに提示される。多数の選択肢を効率よく翻訳者に提示できれば、翻訳者を支援できる。
Alternative Translations-caitraを一歩進めて現在着目している訳語の箇所のみに対して代替の訳文候補を表示するのもよい方法かもしれない。
Bilingual Concordancer-通常のコンコーダンス検索は原文ないし訳文の中で検索対象語を含む文例を一覧表示するが、これを進めて指定した単語を翻訳した訳語を訳文側でも検索してやる。このとき、多義語については訳語が複数存在するから、それぞれの訳語別に文例を仕分けして表示することによって、いずれの訳を選択するのが適切かを判断しやすくする。
 

Confidence
 

翻訳支援ツールは、翻訳者に対して機械翻訳の訳文を提示するだけでなく、その「確からしさ(の推定情報)」または「品質(の推定情報)」を提供して、翻訳者が訳文の処理方法を判断するのを支援できる(Quality Estimation)。具体的には、(1) 機械翻訳の出力がどの程度役に立ちそうか(たとえば5段階評価のスコア)、(2) ポストエディットに値する品質かどうか、(3) ポストエディットにかかるコストの推定、(4) エラー箇所のピンポイントでの指定、などの点を推定した結果を翻訳者に提示することで、翻訳者を支援できる可能性がある。
Sentence-Level Confidence-翻訳メモリで広く利用されている「ファジーマッチ」と同じようなスコア方法を導入してはどうか。ファジーマッチ率が70%を下回ると新規翻訳したほうが早い、と判断するのと同じように、「MT品質スコア」が70%を下回るとポストエディットしないで自分で翻訳したほうがよい、と判断できるようなスコアがあると便利である。あるいはさらに望ましいのは、ポストエディットに要する推定時間や最初から人間が翻訳した場合の推定時間が表示されると便利である。これらの数値は翻訳費用の見積もりにも使うことができるはずである。
Word-Level Confidence-単語レベルで間違っている可能性が高い単語や順序を変更した単語に対してなんらかのマークを付けて強調表示することが可能である。
Automatic Reviewing-人間の翻訳結果に含まれるエラーを検出する機能も提供できる。原文と訳文を比較して、どちらか一方にあるのに他方にない語が存在する場合、および用語集の指定訳語が守られていない場合はそれを警告として表示することができる。(紹介者コメント:こういうチェッカーツールはすでにありますね)
 

Adaptation
 

翻訳対象文書の分野にあわせて適用するコーパスを絞り込めば、それだけ機械翻訳の品質を改善できる可能性がある。本来、機械翻訳の性能が最大になるのはドメイン(対象分野)に対して最適化されたコーパスを使うときであるが、一般的に利用できるEuroparlなどのコーパスは、特定ドメイン以外のデータが大量に含まれるのが普通である。特定ドメインのデータが全体の1%程度しかないということもよくある話で、例えば「情報技術のデータ」というくくりよりも「IBMのユーザーズマニュアル」のほうがコーパスのドメインとしては的を絞れており、「同じ製品の去年のマニュアル」のほうがさらに的を絞れている。このドメイン適合の技術はいろいろな手法が研究されている。
Incremental Updating-ポストエディット後のテキストをセンテンス単位でMTエンジンに供給してインクリメンタルに機械翻訳エンジンを再トレーニングする手法もここに分類できる。
Induction of Terminology-用語集の自動収集は可能か?あるドメインの文書に標準よりも高い水準で繰り返し登場する用語や統一された翻訳があたっている場合などは自動的に検出できるかもしれない。また、実務では指定用語集に準拠するのが一般的だが、何も付加的処理を行わない統計機械翻訳エンジンではそのような用語集の指定にうまく対応できない。この問題を解決するために、訳語指定用のタグを規定してそのタグがある場合はそこで指定された訳語を優先して適用する、という処理が可能と思われる。

(このあと実際にCASMACATを使って行った実験の報告がありました。その内容は12月13日に公開予定です。)