2. TKUNの紹介:井佐原均(豊橋技術科学大学)

2015/07/03

国際競争力の強化に今求められるものーTKUNの提案ー
 


 

国際競争力と多言語情報発信
豊橋技術科学大学 井佐原均教授


 
 
今、日本にとって国際競争力の強化が必要となっている。製造拠点や販売拠点といった海外拠点を置く場合、そのノウハウを伝えるような現地語の作業マニュアルを作る必要がある。産業文書の翻訳の効率化により、世界的な貿易が増加するという波及効果が期待できる。オリンピックが近い昨今、英語以外の国、アジア圏の言語、世界的に需要の多いスペイン語などに対応する必要が増えている。日本語で書かれた産業に関する情報をこれまで以上に、迅速かつ正確に翻訳することが重要である。日本語を多言語に展開する手段を考えることが大切になってくる。分野ごとに辞書を作成し、それをシェアするにあたって、UD (User Data)×UX (User Experience) を組み合わせる枠組みが必要になる。そこで、TKUN (Translation Knowledgebase and User Network) の枠組みを提案する。
 TKUNをサポートする立場にあるのは、豊橋技術科学大学を含めた大学と認識している。翻訳者、ユーザ企業、そして翻訳会社を含めた言語サービス産業が協力し合う。それぞれのプレイヤーが集まった団体の支援も必要である。TKUNが目指す協力関係を図に表すと次のようなイメージになる(井佐原先生の講演資料のスライドより):


 
(機械)翻訳を取り巻く状況
日本の大手企業が機械翻訳の研究を担っていたが実用化に至ったところは少ない。翻訳プロセスの中で機械翻訳をどのように使えばいいのかというサポートが不足している。海外のシステムが台頭している。
日本では、ユーザ(翻訳すべき情報を持つ組織・人)の多言語対応への取り組みが少ない。SDLのような体制は日本では難しく、日本の翻訳会社は比較的小規模である。外資系企業では英日翻訳で機械翻訳が活用されている。機械翻訳システムの活用法として、機械翻訳をプロセスの中で使う1つのツールと考える。
個人では情報受信の為にMTを使うが、情報発信となると(広告、ウェブなど)、精度の良い翻訳になっていないと読んでもらえない。ビジネスでの情報発信では、高精度・高度の多言語化が必要になってくる。本来は日英の精度は高くないといけないが、英日の精度が高く、日英はまだまだである。産業文書の場合、前処理技術、つまり発信する情報をコントロールすることが可能である。分野がわかっているため、辞書を作ることもできる。さらに、ISOの制限言語の国際標準化も進んでいる。
 
翻訳精度を向上する3つのチャンス
①的確な文書作成、②対訳文書の充実と適切な用例の収集、③後編集を通して翻訳の品質が向上する。
的確な文書作成
簡易な制約を定めた日本語規格では、日本語原文の読みやすさを損なわないようにしながら、英語訳文の読みやすさを向上させる。企業文書と自治体ホームページで検証した。
国際標準化の動きとしては、TSが完成した段階である。
ISO/TS24620-1 Language resource management
  • Controlled Natural Language
-- Part 1: Basic concepts and general principles
 
対訳用語集の充実
専門的な分野のものを扱う上で、専門用語の翻訳が重要になってくる。そこで辞書の整備に際し、単語レベルを取り出すのではなく、その分野で特徴的な語句を自動抽出することで、新しい分野の語彙集の作成が容易になった。自動抽出したものに対し、ヒューリスティックスを用いて枝刈りし、最終的に人間による確認を行う。
 
適切な用例の集積
分野・文書タイプを特定した対訳データを作る。分野に限られた言い回しがあり、分野を制限することで既存のデータで翻訳が可能になり、新しい製品に対応できる。そこで、航空機のマニュアルの実験を行なった。この場合文体が同一で定型文が多い一方で、独特の単語(専門用語)がある。既存のマニュアルを学習データとして、新しい航空機のマニュアルを翻訳したところ、精度はかなり高かった。
 
後編集
大規模かつ継続的な後編集をサポートするツールの開発、編集結果や類似事例の蓄積・管理体制の確立が求められる。そこで集合知後編集(Crowd-sourcing PostEdit)を提案する。これは、プロの翻訳者ではないが、対象分野の知識を持つ人による後編集である。留学生による大学ウェブページでの実験では、プロの翻訳者が確認する作業量が10分の1にまで減少したことから集合知後編集が有効であるといえる。TAUSのウェブページも機械翻訳をボランティアが後編集した例である。
 
TKUN(Translation Knowledgebase and User Network
TKUNの目的は、多言語情報発信を効率化させることで、日本の国際競争力を強化することにある。効率化とは、品質、時間、費用がポイントであり、国際競争力においては輸出の増大や来日観光客の増加を考えている。観光地、旅館の情報を事前きれいな英語に翻訳し海外に発信することで外国の人に日本に興味を持ってもらう。リアルタイムの通訳ではなく事前に高品質で翻訳し、必要な情報を提供する。 
TKUNの目標は、多言語情報発信がユーザとなる産業界(企業)の利益実現に重要であることを理解してもらうことである。日本の企業の方にデータのシェアの重要性を理解してもらう必要がある。そのために成功例を示し、データを提供することが企業にとって損にならないことを示す必要がある。
TKUNの手段としては、データ共有に基づく新しい翻訳プロセスの構築を行なう。その際に翻訳精度向上の3つのチャンスを活用することを考えている。これは機械翻訳エンジンの開発プロジェクトではなく、機械翻訳を使って翻訳の効率を上げることをみんなで考えようという協働実証プロジェクトである。こうしたプラットホームを作るにあたって、TAUSという枠組みを用いることを考えている。この枠組みを使ってもらうことで、データの共有が自分たちにとって損じゃない、良い翻訳ができる、国際競争力の強化につながる、という理解を促す。産官学が協力する基盤構築を目指している。