機械翻訳との付き合い方●鈴木博和

2012/07/06

機械翻訳との付き合い方

 


 

鈴木 博和

(株)東芝

研究開発センター 知識メディアラボラトリー

1975 年茨城県生まれ。東京工業大学大学院情報理工学研究科計算工学修士課程修了。2000年に(株)東芝に入社し、以来、機械翻訳の研究開発に携わっている。 同社製品、「The翻訳®シリーズ」搭載機能、文脈情報や書式情報から訳語を導き出す「CFエンジン」「メールCF翻訳」「2段階翻訳」、翻訳メモリを活 用して訳文合成をおこなう「用例ベース自動翻訳」、単言語コーパス中の統計情報を利用して訳語選択を行う「セレクトコーパス機能」など多くを開発。 2009年研究開発メンバーとしてAAMT(Asia-Pacific Association for Machine Translation)長尾賞受賞。2010年からAAMT Journal編集委員も務める。

最近の主な活動:

2011 年9月21日 MT Summit XIII, Xiamen, China, “Automatic Post-Editing based on SMT and its selective application by Sentence-Level Automatic Quality Evaluation”

2011年10月6日 TCシンポジウム, パネリスト, “機械翻訳でコストダウン?”

2012年2月9日 JTF翻訳セミナー講演“機械翻訳の品質評価 ~その限界と可能性~”

2012年10月14日 言語処理学会, 広島市立大, “統計的後編集の効果的利用に関する検証

Examination on Effective Application of Statistical Automatic Post-Editing”

2012年4月19-20日 TAUS Executive Forum Tokyo, Program committee

リンク:

facebook:http://www.facebook.com/suzhiro 

LinkedIn:http://jp.linkedin.com/pub/hirokazu-suzuki/28/701/a43
 








 

●友達以上恋人未満?
2011 年3月11日の東日本大震災の後しばらくして、諸般の事情により私が所属する知識メディアラボラトリーはラボごと、同じ事業場内の別の建物に引越しをする ことになりました。その際、書棚に保存してあった機械翻訳に関する雑誌、新聞記事などのスクラップブックを整理したのですが、埃にまみれ赤茶けたスクラッ プブックの中にあったのは、20年近く前の
「機械翻訳は使えるのか?」
という特集記事でした。
当時はTC(テクニカルコミュニケーション)シンポジウム2011で行われる機械翻訳でのコストダウンに関してのパネルディスカッションの打合せをしていた頃でもあり、
「20年経った今でも議論はあまり変わっていないんだなぁ」
といたく感心した記憶があります。
し かし、この『20年もの間、機械翻訳に対する見方は変わっていない』というのは衝撃でもあります。何せ20年前のOAと現在のOAを比較すればその技術の 進化は言うまでもなく、我々にとってコンピュータ、インターネット、イントラネットを利用した日常業務は、もはやそれなしでは成立し得ない状況となってい ます。そもそもOAという言葉自体もはや死語かもしれません。そんな状況で、今更「インターネットは使えるのか?」なんていう議論は意味をなしません。笑 われてしまいます。
でも、機械翻訳となると状況は異なるようです。
当 初「いずれ翻訳家は要らなくなるのではないか?」などと言われ多くの期待を集めた機械翻訳も、実際に使ってみると思ったように翻訳されないということか ら、ユーザ、特に実務翻訳に携わっている方からはほとんど嫌悪に近いくらいの印象を持たれてきた経緯があります。機械翻訳を使っているというと笑われてし まうような状況ですね。
ところが近年、そのような「不遇の時代」が変わりつつあるのを感じ始めています。ポイントは「技術の変化」と「ニーズの変化」だと思います。
長 い間、機械翻訳の研究開発者たちは翻訳精度の向上に心血を注いできました。用語辞書や多数の文法規則を用いて、文の構造や意味を解析しながら翻訳を構成し ていくルールベース翻訳(RBMT)では、現実に存在する様々な用語・文を正確に解析できるよう、開発者が複雑に絡み合った文法規則をメンテナンスするこ とが求められます。
こ のように開発にコストがかかるRBMTに代わり、現在では統計ベース翻訳(SMT)が主流になりつつあります。SMTでは、多数の対訳文(対訳コーパス) に存在する統計的特徴から、翻訳に必要なモデルを学習し、それを使って「統計的に」翻訳を行うという手法です。「そういう方法で本当に翻訳できるのか?」 と疑問に思われる方もいらっしゃるかもしれませんが、数十万、数百万規模の対訳文が集まると、かなり精度よく翻訳ができるということが分かって来ました。
RBMT 開発の場合は、システム内部に精通した言語学のスペシャリストが必要でしたが、SMTの場合はそのような必要はありません。SMTでは比較的短期間で機械 翻訳システムを構築できる点と、自社内で既に「翻訳メモリ」という形で多数の対訳文を持っている場合もあるということもあり、自社内でMTシステムを構築 する、ということも可能になっています。これが「技術の変化」です。
「ニー ズの変化」はどうでしょう?これは私よりこの記事をお読みになっている皆さんのほうがお詳しいかもしれません。翻訳の単価が下がり、実務翻訳でも機械翻訳 を利用せざるを得ない状況が続いている、というお話をいたるところで伺っています。ここで肝心なのは研究者達が今まで血眼になって改善に励んでいた『翻訳 精度』が最重要課題ではないと いうことです。もちろんいい加減な翻訳結果では困るので、翻訳精度が高いに越したことはないのですが、何らかの評価指標で1ポイント上がっただの、下がっ ただのという議論には大して興味はないのではないでしょうか?それよりも「その翻訳システムを導入すると翻訳のスループットはどの程度改善するのか?」 「コストはどの程度削減されるのか?」といった点が重要になってくると思います。
OA が日常業務で必要不可欠の技術になったように、機械翻訳も翻訳業務で必要不可欠になるためには、上記のポイントを踏まえて「機械翻訳の意識改善」を行わな くてはなりません。これが遅れているために、研究開発者とユーザの間のギャップが埋められず、最初に述べたような議論が続いている気がしてなりません。
OAは業務を遂行する上での手段であり目的ではありません。ところが機械翻訳の場合はその出力結果を最終成果物のように見られがちです。ここでは見方を変える必要があるのです。即ち「機械翻訳=機械翻訳する」ではなく「機械翻訳=機械翻訳する」です。機械翻訳はあくまで人手翻訳あるいはコミュニケーションのための支援ツールとして見るのです。だって機械は人間の翻訳には量では勝っても、質では敵いそうもないですし。
こ れまでこのような当たり前の見方が実はできていなかったのではないか、と思わずにはいられません。見方を変えれば「機械翻訳って案外いい奴」というのがわ かって頂けると思います。仲はいいけどのめり込まない、というのが上手な付き合い方かもしれません。そう、これって「友達以上恋人未満」に近いですね。


 

TCシンポジウム交流会にて

異業種の方々と意見を交換するのはニーズを把握する上でも重要です(舞妓さんと意見交換するわけではありませんが)。
 


 

●機械翻訳に振り回されない
機 械翻訳をビジネスに活用するにはどうすればいいのでしょう?そのような実感が得られる数少ない機会が、今年4月19日~20日に開催されたTAUS Executive Forum Tokyoです。TAUSはTranslation Automation User Societyの略で翻訳産業の発展に貢献するべく、機械翻訳エンドユーザから開発者まで幅広く情報交換を行なっているシンクタンクです。日本での開催は 今回2回目となるExecutive Forumでは、前回を大幅に上回る60名以上の個人・企業からの参加がありました。私は今回program committeeとして開催のお手伝いをさせて頂きました。
フォーラムでは社内で機械翻訳を活用し、翻訳効率を上げている企業からの発表もあれば、いろいろ試行錯誤されている企業からの発表もありました。また、その中で得られた知見を紹介されているところや、機械翻訳を使った新しいサービスを紹介されているところもありました。
様々な発表がある中で共通しているのは、そこでは、「機械翻訳は使えるのか?」という議論はないということです。つまりそこでは『機械翻訳を使うことが目的ではない』という点で一貫しています。
我々は、ついつい機械翻訳を使うことが目的であるかのように扱ったりしがちです。例えばこんな経験はないでしょうか?
・機械翻訳がうまく通るように苦労して日本語を書き換えている
・機械翻訳の結果をできる限り利用しようとして四苦八苦している
でもよく考えてみると、これはナンセンスですね。機械翻訳を使うことが目的となってしまっているからです。従って機械翻訳を利用するための方法論が必要です。
機械翻訳に振り回されないためには、どのようなときにどのくらい利用し、どのようなときに利用しないかといったガイドラインをきっちり定めることが肝要と思われます。これが曖昧だったり、人によって異なっていると途端に機械翻訳に振り回される結果となります。
TAUS Executive Forumでは機械翻訳を手段として用いるための方法論に関しても議論があるので非常に参考になります。また、各企業では機械翻訳を具体的にどのように活 用しているか、どのような取り組みが行われているかという、学会などではなかなか得られない情報が得られる、非常に貴重な経験の場でもあります。実際「こ こだけの話。他所では話さないでくださいね。」なんていう話も聞けたりします。
来年も同じ時期に開催予定とのことですので、関心がおありの方は是非ホームページなどご覧になってみてください(http://www.translationautomation.com/)。



 

 

TAUS Executive Forumのprogram committeeメンバーとTAUS主催者のJaap van der Meer氏(写真右中央)。私は写真左奥。
 

 

●そして未来へ
機械翻訳はこれからどうなるのだろう、と最近考えます。10年後も相変わらず「機械翻訳は使えるのか?」という議論を続けているのでしょうか?
い や、どうやらそうではなさそうな気配がします。インターネット技術やSNSの普及に伴って翻訳されずに残っているコンテンツは日々激増しています。それら は人手で翻訳されることもなくインターネットの渦に埋もれています。このような翻訳には機械翻訳は最適です。スピード重視のコミュニケーションでは大まか な意図さえ理解出来ればいいわけですから。そういう意味では、時代が機械翻訳を必要とするようになったといえるのかもしれません。
し かし、そうはいっても電子メールでやり取りする場合など、機械翻訳の品質では十分でない場合も多々あります。そのようなニーズに応えるサービスとして最近 注目されているのがソーシャル翻訳サービスです。ソーシャルの力を借りて低価格で機械翻訳よりも高品質の翻訳を提供するソーシャル翻訳サービスは、実務翻 訳と機械翻訳のニーズの穴を埋める第3の勢力として急成長しています。今後は、機械翻訳・ソーシャル翻訳の融合が進み、機械であるとか人であるとかそれほ ど意識せずに、早く高品質な翻訳を手軽に利用できるようになると思います。「早い、安い、うまい」といった牛丼のキャッチコピーのような翻訳を利用できる 時代が、すぐそこまで来ています。
ま た、昨今のスマートフォンの進歩は目覚ましく、そこで利用できる翻訳・通訳アプリも人気が高まっています。音声認識技術もどんどん進化しているため、音声 を入力のインターフェースとしたアプリ・サービスも今後ますます増えることでしょう。カメラで撮影した風景に情報を上書きして提示する拡張現実 (Augmented Reality, AR)の技術も進歩し、それと音声翻訳が融合するようになるのは、容易に想像される未来です。
こ のように機械翻訳は、今後どんどん身近に、そして必須の「ツール」になっていくことでしょう。このような未来を間近に控え、我々研究開発者はニーズをどの ように捉え、どのような技術を提供していくかを真剣に考えて行かなければならないのはもちろんのこと、実務翻訳の方もビジネスのあり方を考えて行かなけれ ばならないのかもしれません。
でも今までのように、実務翻訳者と機械翻訳は敵同士ではありません。これからはお互い協力し合いながら日本の翻訳産業を盛り上げていきたいものです。



 

コラムオーナー

2012/05/11

松田 浩一(まつだ こういち)

横浜市在住。長年SONYに開発系エンジニアとして務め、一念発起して2004年春に早期退職し、2005年秋よりフリーランスの特許翻訳者/産業翻訳者として独立して現在に至る。 専門分野は電子・電気/通信・ネットワーク/機械系。本業の翻訳と並行して、翻訳スクール講師、ネット翻訳道場の講師、SNSの翻訳コミュニティ管理者などを兼務。元気の源は愛犬と愛猫とジムでのエクササイズ。辞書と音楽とiPhoneが大好き。Facebookとmixiで同名のコミュニティ「翻訳の泉」を主宰。

Facebook  http://www.facebook.com/honyaku.no.izumi
mixi  http://c.mixi.jp/honyaku