解説 TAUSが提供するサービス

2015/07/03

TAUS Data

TAUSが提供するサービスのなかでもっともはやく知られるようになったのはコーパス(翻訳メモリ)の共有です。現代の主流である統計的な機械翻訳では大量の対訳データベース(コーパスと呼ばれ、翻訳メモリもその一種)を必要としますが、そのボリュームは一般的に百万文以上と膨大になるため大企業でも単独で十分な量のコーパスを確保することはなかなか困難です。TAUSはいちはやくこの特性に気づいて、各社が自社のコーパスをもちよれば業界全体として大量のコーパスが利用できることを提唱しました。このコーパス共有の仕組みは実際に45社の参加を得て2008年にTAUS Dataとして実現され、現在は595億ワード(2015年6月現在)のデータが登録されるまでに成長しています。

TAUS Dataを利用するにはまず自分のコーパスを提供する必要があり、メンバーになると提供するコーパス1に対して5の割合でコーパスをダウンロードできます。このような互恵的なしくみを組み込んでいることがTAUSの特徴で、おカネでサービスを買うというビジネスモデルではなく、お互いに自分がもっている資源を持ち寄ることで共有資産を構築していこうという創業者であるJaap氏の理念がわかりやすい形でこの仕組みに反映されています。

TAUS Dataの現状での課題のひとつは分野と言語ペアに偏りがあることで、TAUSのメンバーが多いIT分野では大量の文書が英語をハブとして集積されていますが、分野と言語ペアによってはあまりデータが蓄積されていない場合があります。企業や国家の枠組みを超えて共有されたコーパスが人類の共有資産になり得ることは理論的には明らかですが、それが実現できるかどうかは、より多様な分野とより多くの言語ペアにTAUS Dataの仕組みが普及していくことが不可欠であり、その成功はTAUSが示す「言語資産の普遍共有」の理念にどれだけ多くの人が共鳴できるかにかかっています。

DQF(Dynamic Quality Framework)

翻訳品質をどう担保するかは業界のすべての人が関心をもつ課題です。機械翻訳の世界ではBLEUなどの自動評価が提供されて研究の進展に大きく寄与してきた歴史がありますが、実務の世界では人間による評価を行なう仕組みが必要で、その開発は顧客企業や翻訳会社の個別の工夫に長い間まかされてきた領域でした。TAUSは品質評価(Evaluation)というテーマにどうすればより合理的かつ効率的に取り組めるかを検討した結果、2011年にDQF(Dynamic Quality Framework)と名付けた仕組みを公開しました。最初に登場した段階でのDQFのコンセプトを一言でいうと“コンテンツ・プロファイリング”、すなわち翻訳対象文書の特性にあわせて多様な品質定義を導入することでした。DQFでは翻訳対象文書の用途(マーケティング資料等)、対象読者(内部文書か否か)、チャンネル(B2BかB2CかC2Cか)などいくつかの指標をもとに目標とする品質基準を場合分けします。

加えてTAUSでは、翻訳品質管理に関する各社の方法論を知識ベースとしてTAUSのウェブサイト上で共有していく仕組みを2012年に作りました。この知識ベースでは翻訳品質の評価指標をadequacy (accuracy)、fluency (readability)、usability、community feedback、error typology、productivity measurementの6点に分類し、ユースケース、テンプレート、メトリクス、スペックを共有できるようになっていました。

コンテンツ・プロファイリングやメトリクスの共有は興味深いコンセプトですが、コンセプトだけではなかなか現場に普及しないことは過去の経験から明らかです。翻訳品質評価についても翻訳支援ツールの機能のひとつとして、あるいは単独でQAツールが広く利用されています。DQFもユーザー側からみるとツールの機能として利用できるようにする必要があるため、TAUSは現在、Quality Dashboardと名付けた品質評価プラットフォームを提供しています。DQFと従来のQAツールとの大きな違いは、Quality Dashboardを通じて他のユーザーが行っている品質評価作業との比較が統計的に行える点です。ユーザーは、ベンチマークを通じて自らが行っている品質評価作業の効率を他者と比較できます。ここで提供される品質評価には機械翻訳を組み込んだ翻訳プロセスにおける品質評価が含まれるため、とくに機械翻訳をどのように翻訳プロセスに組み込むか試行錯誤している企業にとっては参考情報として役立ちます。

Post-Editing

機械翻訳を実利用するうえでポストエディターをどうやって育成するかはこれからますます業界全体の課題となっていくでしょう。この点についても、TAUSはポストエディターの養成コースを提供することでひとつのベンチマークを提示しました。DQFで提供されるポストエディットツールを使えばポストエディットにかかった時間と編集作業量(編集距離)を計測でき、作業効率を数値で評価しながら自分(または自社)のポストエディット作業の定量的な効率改善に利用できます。

API

TAUS Data、DQF、Post-EditingのすべてがTAUSのAPIを通じて相互に連携していく構想のもとでTAUSではAPIの整備と標準化を進めています。翻訳APIの整備においては、翻訳データそのもののやりとりにくわえて、コメントやスコアなどの品質評価に関する情報をどのようにしてAPIを経由してやりとりできるかを規定する必要があり、この領域はこれからの数年で急速に検討が進むと思われますが、TAUSはいちはやく翻訳APIの重要性を理解し、標準化を視野にいれた提案も出しています。

TAUSについてもっと知るには

TAUSのウェブサイト(https://www.taus.net)には無料で読めるレポートが多数公開されていますので、それらを読むことでTAUSに関する理解を深めることができます。日本では毎年4月にエグゼクティブフォーラムと名付けられたTAUSのイベントが開催されます。2015年からは豊橋技術科学大学との提携により、これからTAUSに参加してもらいたい日本のユーザー向けの、より開かれた仕組みとイベントが提供されるようになりました。TAUSの今後の展開はJTFジャーナルでも紹介していく予定です。