イベント報告

2019/05/10

2018年度第3回JTF関西セミナー報告
AI翻訳が製薬業界を変える ~現場からの報告~


隅田 英一郎(スミタ エイイチロウ)

IBM、ATR、NICTの研究所を渡り歩きつつ一貫して自動翻訳に関わり、規則、用例、統計、ニューラルネットのMTを熟知。現在、2020年をゴールとする音声翻訳の国家プロジェクト「グローバルコミュニケーション計画」を推進しながら、翻訳イノベーションの種蒔き・草抜き・水やり等のお世話に精を出している(^^♪

田中 倫夫(タナカ ミチオ)

30年にわたる外資系製薬企業での医薬品開発経験から、製薬業界における翻訳品質とそのプロセス効率化の重要性を痛感している。医薬品開発に特化させたNICT製AI翻訳の評価及び導入にあたっては、NICTとの協力の下で”業界初”の実用化を達成した。現在はさらなる翻訳品質の向上を目指して業界内での協力体制構築を模索している。

早川 威士(ハヤカワ タケシ)

2006年株式会社アスカコーポレーション入社。現在は機械翻訳(MT)関連の開発を担当し、大学でもMTの研究に携わっている。今回の関西セミナーでは、AI翻訳の外部評価を担当する。

 

登壇者(左:田中氏、中央:隅田氏、右:早川氏)
 



2018年度第2回JTF関西セミナー報告
日時●2019年3月15日(金)14:00 ~ 17:00
開催場所●大阪大学中之島センター
テーマ●AI翻訳が製薬業界を変える ~現場からの報告~
登壇者:登壇順
●隅田 英一郎(スミタ エイイチロウ)情報通信研究機構(NICT)フェロー、日本翻訳連盟(JTF)理事、アジア太平洋機械翻訳協会(AAMT)会長 
●田中 倫夫(タナカ ミチオ)アストラゼネカ株式会社 執行役員 研究開発本部 サイエンス&データテクノロジー統括部長
●早川 威士(ハヤカワ タケシ)株式会社アスカコーポレーション 制作部R&D課、大阪大学大学院 情報科学研究科
報告者:登壇順
●隅田氏報告:内山将夫(情報通信研究機構・先進的翻訳研究室・研究マネージャー)
●田中氏報告:小野田哲也(株式会社サン・フレア ライフサイエンス事業本部 顧問)
●早川氏報告:山口将史(株式会社川村インターナショナル 関西オフィス所長)

 


 

隅田英一郎氏のご講演の報告

 製薬翻訳においても、自動翻訳が無視できない高精度になってきている。自動翻訳については、「酷い訳を生産し、その訂正を人間翻訳者に押し付ける」という見方と「OKな訳を高速に生産する使える道具」という見方がある。一般的に、自動翻訳は、天気予報と同様に間違えるが、それを道具として上手に使うことが必要である。
 歴史的には、ニューラル機械翻訳(NMT)により劇的に翻訳品質が改善した。また、NMTの利用により、個人差はあるが、プロの翻訳者の効率も改善したという報告がある。 
 AI翻訳とはNMTのことである。NMTの学習とは、数値パラメタの調整である。つまり、NMTは学習結果を数値として記憶する。したがって、NMTからは、その学習元データのテキスト情報は漏洩しない。
 NMTの精度向上のために、汎用的なNMTに対して、医薬分野の対訳データを適応することにより、医薬翻訳に対して高精度になる。たとえば、「study」 には、「研究・学問・書斎・習作・治験」などの訳語があるが、医薬分野への適応により、「研究・治験」などに訳語の範囲が狭くなる。これまでの結果では、医薬分野への適応により、BLEUが20から30ポイント程度向上して、かなり使えるようになった。
 自動翻訳精度は次式できまる。「対訳データの量x対訳データの質xアルゴリズム」。現在、異なるNMTであっても、アルゴリズムは同様なものと考えられる。けれども、NICTの翻訳エンジンは、高品質の対訳データを企業や政府から翻訳バンクにご提供いただいているので、他の翻訳エンジンよりも高精度である。たとえば、適応により20~30ポイント以上のBLEU値の向上があったが、アルゴリズムの改善によるBLEU値の向上は通常2ポイント程度でも大幅と考えられている。
 最高精度の自動翻訳を作るには、競争ではなく協調が必要である。翻訳バンクにより、対訳寄付からの高精度自動翻訳が可能になる。このような高精度NMTによる利益を、翻訳者・クライアント・翻訳会社というステークホルダー間で公平に分配する仕組みが必要である。

田中倫夫氏のご講演の報告

 製薬会社には「良い薬を早く患者さんの手元に届ける」という使命がある。そのために、世界同時開発及び世界同時申請という方法があるが、どちらの場合も日本では英語から日本語への翻訳が必須である。
 アストラゼネカ社では年間8000枚もの翻訳文書が発生するため、短時間及び低コストで良質な翻訳文を得る必要があり、そのためNICTのニューラル機械翻訳(NMT)を活用することを考えた。
 導入手順としては、汎用NMTを医薬専門に特化するための「教師データ」として、自社で蓄積していた約100万文の医薬関連の対訳文をNMTにインプットしアダプテーション(訓練)を行った。次に、その訓練後のNMTを用いて治験実施計画書(CSP)などの医薬文書の翻訳を行い、それらの品質を実際のユーザーである社内関係者で5段階評価を行った。その結果、ほとんどの翻訳品質評価項目で満足なスコアであったためNMTの導入に至った。導入後の事例として、従来はCSPの訳に「外部プロ訳者による翻訳=3週間」+「自社での最終化=1週間」の合計4週間を要していたが、訓練後のNMTの利用により「翻訳時間=0」+「自社でのポストエディット(PE)+最終化=2週間」と品質を変えずに2週間の時間短縮が達成できた。なお、PE作業は英語の堪能な1名が担当し、翻訳メモリ機能に加えNMTをアドオンしたTRADOSを使用した。
 今後のステップとしては、NMT後のPE処理は必須であるため、外部のプロの訳者/PE者との協業により、今よりもさらに短期間及び低コストでより多くの良質な翻訳文書を得ることができれば、両者Win-Winの関係が構築できると考えている。

早川威士氏のご講演の報告

 休憩を挟み15時30分からは、早川氏による自動翻訳(MT)のデモが実施された。アストラゼネカ社コーパスでアダプテーションされた状態の「みんなの自動翻訳@TexTra®」エンジンを使用して、MTのスピード、品質を受講者に実際に体験してもらおうという試みだ。医師主導試験のプロトコールが対象のテキストとして用意され、目の前で自動翻訳されていくところを確認できたのだが、一瞥しただけでも用語等の正確性が見て取れた。翻訳されたテキストを見た受講者からは、MTを使用したときのメリットや実際にどうポストエディットしていくのがいいのかなど、実務者視点からの意見や感想、疑問などが飛び交った。
 続いて、早川氏はMTの外部評価結果を発表した。開発関係の文書と医学論文から各50センテンス、合計100センテンスを抜き出し、汎用MTエンジンとアダプテーション済みMTエンジンのどちらかをランダムに使用して訳文を出力する。それを翻訳の経験年数によってベテラン2名、中堅2名、新人2名に区分した6名に、人手翻訳と同等の水準に達するまでポストエディットしてもらい、作業時間、修正個所の数、エラー種類を比較評価したものだ。発表された結果では、アダプテーション済みMTを使用したセンテンスでは、誤訳と専門用語のエラーが減り、ベテランの作業者は修正個所が他と比べて多いにも関わらず作業時間が有意に減ったという。限られたサンプルであることは早川氏自身も言及していたものの、運用面での興味深い示唆が得られたように思う。
 今回のセミナーでは、翻訳依頼元、翻訳会社、翻訳者という立場の受講者がほぼ均等に集まった。そうした理由もあって、最後のQ&Aセッションではさまざまな視点からの意見、感想、質問が挙がったが、登壇者3名からそれぞれ印象的な回答があったので紹介したい。
 「アダプテーションを経たMTの評価を点数付けしてほしい」という質問には、早川氏が回答した。アダプテーション済みMTの性能はおしなべて上がっており、今後は点数のような指標で品質を表現するよりも、MTで発生するクリティカルなエラーは何か、なぜ起こるのかなど、ユーザーが利用を躊躇させ得る課題の解決を研究対象としていくのが1つの方向性だという。次に、「どのMTエンジンを使えばいいのか」という質問には、今は発展の途上であり、同じエンジンをこれと決めて使い続けるという段階ではないという、技術者らしい提案が隅田氏から出された。田中氏は、アストラゼネカで今後、自社用にアダプテーションされたエンジンを外向けに展開することがあるのかというビジネス的な質問に対して、次のステップでは「もっといいものを」得るため、ユーザーとして全力で発展に協力していくという、ポジティブサイクルを体現する姿勢が示された。