4. TAUSの紹介:Jaap van der Meer (TAUS)

2015/07/03

講演4

Introduction of TAUS and insights in the global market for machine translation

TAUSの紹介および、機械翻訳のグローバルな市場についての洞察


 

<講演者>
Mr. Jaap van der Meer

 
 
翻訳をめぐる環境の変化
★もとは、豪華なもの(luxury) 20世紀(1万ほどの大企業だけのための翻訳。)
           ↓
★数十億のユーザが利用できるもの 21世紀 (インターネット上でオンライン利用可能。クリックするだけでリアルタイムに得られるような翻訳。)
 
 21世紀、機械翻訳は、あらゆるものに埋め込まれている。
 リアルタイムに翻訳結果を表示できる。
 機械翻訳は、翻訳産業に対峙するものである。(Confronting to industry翻訳産業はこれに直面しているという意味にもとることができる。)
◎個人化された翻訳(privatized translation) – 絶え間のない翻訳を行う。
 どのように、用途に合わせた機械翻訳を選択し、よりよい品質の機械翻訳を得るかが大切なテーマである。(how to match the MT & better quality of MT)
 
 Innovators(革新者)…TAUSで頻繁に取り上げているテーマ
 強力な革新者はinvadersとも呼ぶ。
 MicrosoftやGoogleは、技術革新のモデル(innovative model)
→これに関連した内容については、ぜひTAUSのウェブサイトを!
 
 今求められるのは、もっとも低次元でのコミュニケーション…エンドユーザとのやりとり
 
 翻訳は資産(commodity)か、それとも実用性(utility)か?という問いかけがある。
 現代は、Convergence eraということができる。
(三宅補足:Convergence eraに定訳はなく、日本語には定着していない、オリジナルな概念ですが、convergenceには収束の意味があることから、また以下にあげられる事例から、様々な要素が統合されるという現象ととらえてよいのではないでしょうか。)
 Convergence eraに起こっていることの事例:
・Internet of Things (IoT)
・コミュニケーション機能音声翻訳
・ビッグデータ

Slide 4 from the presentation material of Mr. Jaap van der Meer

 
翻訳業界は、ハイテク業界(high-tech industry)になりつつある。
クラウドソーシングはその典型例。
 
効果を加速する(accelerating effect)→ハイテクになっていく。
革新者(Innovators)の背後にあるものは何か?
技術のライフサイクルが働く。
★品質の測定
 結果があるのならその品質を測定しよう。
 品質の測定は、非常に重大な恩恵となる。
 
<参考>
 TAUSによる昨年のレポート(MT market report)
 機械翻訳との収束(convergence)
 翻訳メモリと機械翻訳の再収束(reconvergence)→そして分岐させる。
 学術界(academic world)と産業界(industry)の再収束も起こりつつある。

Slide 7 from the presentation material of Mr. Jaap van der Meer
 
 ワークフローと翻訳管理システム
→機械翻訳へとつなぐためのAPI
 空白のセグメント
 翻訳メモリまたは機械翻訳エンジンからの出力→編集
 ポストエディットは、機械翻訳の主要な生産方法
 (B to Bの翻訳の40%が機械翻訳+ポストエディットで行われている)
 
 技術には、資産(commodity)としての側面がある
 簡単に利用できるものである。
 特定の顧客やドメインに特化した翻訳データの蓄積にも技術は役に立つ。
 
機械翻訳の市場(ベンダー)は、比較的小さい。
 生活とビジネスに与える影響は大きい。
 どうしたらもっと生産的になるか。
 機械翻訳技術は、より大きなインパクトを与える。
 機械翻訳は、企業にも言語サービス産業にも新たな機会を与えるForce multiplier(三宅補足:これも一般的な用語としての定訳はありませんが、力を高めるものと理解してよいのではないでしょうか)である。
 
グローバリゼーション/ハイパーグローバリゼーション
 他の産業への技術の統合
 ドメインや顧客に特化したデータ
 プライバシーとセキュリティが守られるデータ共有(Privacy/security data share)
 高い品質の翻訳をどう得るか。
→機械翻訳技術と、品質の評価の両方が必要。
 
 
市場における機会を得るために
 ビジネスの拡大
 優れたサービスを提供する
 翻訳者の生産性
 品質についての議論
 新しい技術への扉を開ける
 会社にとっての機会創出
 インターネットで利用可能な汎用機械翻訳にはないドメイン等に特化した、自らトレーニングした機械翻訳の強みを活かす(一部三宅補足あり)
 
◎異なる期待をもった機械翻訳プロジェクト・・・誤ったスタート
→これではプロジェクトがだめになり、再開する努力が必要になる
◎正しい期待値、正しい評価測定・・・良いスタート
 
 人手が足りない場合、機械翻訳が効果的だと思われがちである。
 しかし、機械翻訳もまた希少である。
 少ないリソース(lower resources)で、より金銭的なコストをかけないでできること。→これがもっと大切なこと!
→機械翻訳のスペシャリストが求められる。
 そうした人々の評価方法も必要。
 機械翻訳のスペシャリストを見つけることは難しい。
 
その他の課題・・・
 ベンダーのロックイン
 正しい価格設定モデル/ビジネスモデル
 
 
 
●機械翻訳の市場を促進する要因と阻害する要因
 

Slide 11 from the presentation material of Mr. Jaap van der Meer

 
 促進要因…収束(convergence)およびhyper-globalization(三宅補足:これもJaapさんがよくおっしゃる概念です。ハイパーグローバリゼーションと訳されている例も見かけますが、欧米の方が使われるほど日本にはなじんでいません。グローバリゼーションの進化形、さらに上をいくものと考えてもよいのではないかと思います)を含む。
 
★我々がどれくらいデータの共有に対して心が開かれているか?閉じているか?
→重要な決断。
 閉じていたら、イノベーションが限定される。
 開いていたら、innovatorがもっと早く成長する。
 
◎TAUSについて
 Industry organizationである。
 10周年を迎えたばかり。
 Industry agent。
●データの共有
●sharing data insight
●ベストプラクティス
●共通API
→DQFは、翻訳の品質の測定のための枠組み。
 
TAUS Collaborative Commons
 経済学者Rifcanの思想を視野に入れ、Jaapさんが名づけたようす。
 データ共有のためのマトリクスである。
 3つの主要な領域…Technology Hub, Quality Dashboard, Data Cloud
 
・Technology Hubは、TAUSのウェブサイト上のナレッジベース
 
・Quality Dashboardは、ベンチマークとしての役割を果たす。
 言語ペア/ドメインごとの品質評価とその共有が可能。
 これにより、品質は、比較の視点を含んだ、使用価値のあるものになった。
 
・Data Cloud
 TAUS Dataが主に焦点をあてているもの。
 TAUS Data Repositoryには、550億ワード、2,200言語ペアのデータが保存されている。
 多くの人が翻訳メモリデータをアップロードできるように、無料でオープンなサービスとして公開している。
 データを取得して、データを与える。(take data – give data)
 Private Vaultを使用し、自らのデータは非公開にすることも可能だが、アップロード(公開)したら、データの五倍の量のデータをダウンロードできる。
★データの著作権(copyright)の維持。(著作権がデータ保有者の手中に残る)
 
 あらゆるデータをアップロードすることができる。
 現在、1億5,800万ワード。
 ITのデータが最大。
 特定のドメインに特化したデータが必要とされる。
★皆さん、絶え間なくデータで貢献して、すべてのドメインをカバーできるようにしましょう!
 登録しなくても、希望の言語対で希望のドメインでどれくらいの量のデータがあるかをチェックすることができる。
 利用できるのは、自分が保有しているクレジットの分。(全て)データで貢献をしてクレジットを得れば、クレジット分のデータをダウンロードすることができる。こうやって我々のデータは増えていく!