業界標準規格から成るOAXAL規格(上級編)

2013/03/08

業界標準規格から成るOAXAL規格(上級編)
 

関根(せきね) 哲也(てつや) インフォパース株式会社代表取締役社長
 
前回の記事に続き、本稿では、OAXAL(オアクサル)で実装されている代表的な標準規格について実例とともに説明する。さらに、具体例の紹介として、OAXALリファレンスフレームワークの実装例を、CMS(コンテンツ管理システム)とTMS(翻訳管理システム)の連携から紐解き、結びとして、今後の可能性についてテクノロジーとイノベーションの側面から実現可能なコンテンツインフラストラクチャ―としての、OAXALビジネスソリューションとして考察する。
 
OAXALで紡ぐ

  • OAXALスタックを構成する代表的な6つのXML標準規格
前回の初級編の記事では、OAXALが、ユニコードを最下位のスタックとするXMLベースの標準規格から構成されていることを簡単に説明したが、今回の記事では、その中で特に重要な以下の6つのXMLの規格についてそれぞれより詳しく解説する。
 
DITA:Darwin Information Typing ArchitectureXMLボキャブラリとして)
 翻訳業界に関わっている実務者やテクニカルコミュニケーションに関わっている実務者にとって、近年注目を浴びているXMLボキャブラリ(データモデル)である。元々は、グローバルにサービスをソリューションとして提供するためにトピック指向のモジュール化情報開発手法を行ってきたIBMによって開発、採用されたアーキテクチャである。その後、IBMからOASISに寄贈され、グローバルスタンダードとして発展してきた。単純にグローバル情報開発フレームワークで採用されているXMLファイル形式のひとつとして捉えることもできるが、実際のところは、情報開発の方法論としての、タスク重視、ミニマリスティックライティング、再利用の体系化、メタ情報の活用、マップによる構成定義、標準化されたツールによるコンテンツ処理の自動化手法、などを包含したグローバルスタンダードとしてのアーキテクチャモデルである。他のXMLボキャブラリ同様、データモデルとしてDTD(文書型定義)によって構造とセマンテックが標準化され、OASIS組織のDITA TCを構成するグローバルな専門家集団によって、民主的にDITAスタンダードは維持、更新されている。
 
W3C ITSInternationalization Tag Set
 W3Cによって制定、維持されている地域化(ローカリゼーション)のための文書化ルールである。具体的には、例えばDITAデータモデルにおいて以下のように定義することができる。
  1. どの属性(要素の)が翻訳対象であるのか
  2. どの要素が、インライン要素(言語的な文節に含まれる;強調のための要素など)なのか
  3. どの要素がサブフロー(索引マーカーや注釈など)インライン要素なのか
 ITSでは、これらのルールに加え、文書インスタンスごとのより正確な地域化のルールを定義することができ、ローカライズ工程の発注サイドと翻訳作業サイド間の正確なコミュニケーションにおいて欠かせない規格である。
 
ITSインスタンスの例
<?xml version="1.0" encoding="UTF-8"?>
<its:rules version="1.0" xmlns:its="http://www.w3.org/2005/11/its">
   <its:translateRule selector="//P" translate="yes"/>
   <its:withinTextRule selector="//P" withinText="no"/>
   <its:translateRule selector="//Br" translate="no"/>
   <its:withinTextRule selector="//Br" withinText="nested"/>
   <its:translateRule selector="//B" translate="yes"/>
   <its:withinTextRule selector="//B" withinText="yes"/>
</its:rules>
 
SRXSegmentation Rules eXchange
現在は、ETSI LISによって維持されている、開発当初は異なるベンダーの翻訳支援ツール間の翻訳データのセグメンテーションルールの互換性を維持するためのXMLボキャブラリであった。しかしながら、現在は、互換性の維持というよりは、それぞれのベンダーがルールを寄贈することで、翻訳業界においての言語ごとのセグメンテーションルールのリポジトリを構築することにその目的が変移している。SRXは、ユニコードの正規表現からルール化されている。
 
SRXインスタンスの例
<?xml version="1.0"?>
<srx version="2.0" xmlns=http://www.lisa.org/srx20 xmlns:xsi=http://www.w3.org/2001/XMLSchema-instance xsi:schemaLocation="http://www.lisa.org/srx20 srx20.xsd">
<header cascade="no" segmentsubflows="no">
<formathandle type="start" include="no"/>
<formathandle type="end" include="yes"/>
<formathandle type="isolated" include="yes"/>
</header><body><languagerules>
<languagerule languagerulename="English">
<rule break="no">
<beforebreak>(^|\s|\p{Ps}|\p{Po}|(&lt;[^&gt;]*&gt;))Std\.</beforebreak>
<afterbreak>\s</afterbreak>
</rule>
       <rule break="yes"><beforebreak>[.?!;]</beforebreak><afterbreak>
(\s|&#xA0;)*+(&lt;[^&gt;]*&gt;(\s|&#xA0;)*+)*+(\s|&#xA0;)*+$</afterbreak>
</rule></languagerule>
</languagerules>
<maprules><maprule maprulename="Default">
<languagemap languagepattern="en*" languagerulename="English"/>
</maprule>
</maprules></body>
</srx>
 
TMXTranslation Memory eXchange
 現在は、ETSI LISで維持されている異なるツール間における翻訳メモリの共有のためのXMLボキャブラリである。データモデルは非常にシンプルであることからXSLTによる自動生成や既存資産からのマイグレーションの事例も多く、デファクト的に多くのベンダーの翻訳関連ツールにインポートとエクスポートレベルでサポートされている。TMX 1.4b以上でLevel2以上のインラインコードがサポートされていることで互換性はより増すことになる。インポートやエクスポートを定例作業として行う場合は、各ツールのサポートレベルを確認することでマッチレベルにおけるペナルティを減らすことができ、メモリ再利用時の非効率化の問題を抑えることが可能である。
 
GMXGlobal Information Management Metrics Exchange
 指標としての数値計算アルゴリズムの合意を得ることがベンダーやLSP間で容易ではないため他のETSI LISのXML規格に比べると発展途上と捉えることが正しい認識と言える。GMX自体は、さらに正確な指標のために3つに分離される。
  1. GMX/V:文字カウントとワードカウント
  2. GMX/C:複雑さの指標(数値化)
  3. GMX/Q:品質の指標(数値化)
 現在は、GMX/VがXLIFFにおけるワードカウントなどのベース情報として実装されている。問題として顕著なのは、原文言語を文字ベースとするアジア系言語の数値指標である。それぞれ以下の係数(ワード数割る係数)が、GMX/Vで決められている。
 
言語 ワードファクター(係数)
Simplified Chinese 2.8
Traditional Chinese 2.8
Hong Kong Chinese 2.8
Japanese 3
Korean 3.3
Thai 6
 
 
 
XLIFFXML Localization File Format
DITA、OAXAL同様、その規格がOASISで更新、維持されている翻訳コンテンツのデータ互換のためのXMLボキャブラリである。TMX同様、多くのツールやシステムで採用されているが、データモデルが複雑であり、また拡張しやすい故の非互換の問題が常に存在する規格である。現在XLIFFv2.0の規格への取り組みが活発に行われているが、近年のマイクロソフト社の参加も含め、それぞれの会員企業のサイズによるパワーバランスや既存ベテランの取り組みの違いや、適用範囲が広がってきたことから発生した問題など、懸念事項満載であるが、どう決着するか楽しみな規格である。DITAとの関連性も運用レベルで非常に強い規格である。DITAにおける複数のDITAトピックをひとつのXLIFFファイルにまとめたり、マッチ分析の結果をメタ情報として含め、既存翻訳部分にフラッグを付与して除外したり、さらにワード数の情報を含有したり、バイナリデータを暗号化してパッケージとして一体化管理が可能である点など、ウェブサービスなどによる業務刷新への応用が期待される翻訳やローカライズの中核となるXML規格である。
 
  • OAXALの中核であるウェブサービス対応のTMS(翻訳管理システム)
 クラウド翻訳システムとして国内でも徐々に認知され、企業レベルでの普及が始まったXTMは、OAXALの実装を具現化するために開発された翻訳管理、プロジェクト支援、翻訳メモリ、の包括的なシステムである。XTMは、ウェブサービス連携のためのオープンAPIと用語管理マネージャーや翻訳メモリマネージャー、ブラウザーベースの翻訳作業ワークベンチをウェブサービスでシームレスな統合環境とする。スケーラビリティー要件や業務システム連携要件を全体最適化要件として包含可能な、業務連携のためのオープンシステムである。独立したXTM環境を、クラウド、オンプレミスに区別する事無く、階層的にサブコントラクト化したり、欧米で多くのDITA CCMSにインテグレートされその実績が証明されているようにCMSにシームレスにインテグレートすることが可能である。

 

XTM翻訳プロジェクトデータフロー図


XTMブラウザーベースの翻訳ワークベンチ
 
  • DITA CCMS(コンポーネント管理システム)におけるOAXAL
 取説などの技術情報の多言語化においては、そのROI的なコンテンツの再利用の促進とおよび再利用による品質レベルの担保のためにコンテンツをコンポーネント化しそのバージョンやステータスのメタ情報を管理するために既存のコンテンツ管理システム(CMS)をDITAのアーキテクチャに対応させたDITA CCMSの導入が進んでいる。このセクションでは、事例としてDITA CCMSがOAXAL実装の代表選手である点を弊社ソリューション「XDocs CCMS」の翻訳マネージャーオプションから解説する。
 XDocs CCMSは、DITAコンテンツの翻訳プロセスを以下の2つの異なるプロセスとして対応可能な多言語CCMSである。現在国内商用DITA CCMSは、トピックパッケージのプロセスに対応しているシステム(DITAトピック形式のファイルを翻訳)が普及しているが、XDocs CCMSは、トピックパッケージのプロセスに加え、よりOAXALフレームワーク対応したXLIFFパッケージのプロセスにも対応している。XDocs CCMSは、XLIFFパッケージのプロセスが選択された場合、DITAのトピック形式の複数の翻訳パッケージでは無く、ひとつに結合されたXLIFF形式の翻訳パッケージを生成するのである。XLIFF形式に対応したXTMなどのTMS(翻訳管理システム)は、オープンAPI(ウェブサービス)でインテグレーションをおこなうことで、DITA CCMSとTMSのウェブサービスを活用しての自動ワークフローを簡単に構築することができるのである。XDocs CCMSは、前に翻訳されたリリースの特定バージョンのコンテンツを除外し、新規に翻訳が必要なコンテンツのみ翻訳管理プロセスアプリケーション上で翻訳プロセス(XTM)に遷移させる。
2回に渡ってOAXALについて紹介してきたが、今回の記事の内容は、欧米の企業のグローバルコンテンツ戦略としてSAPをはじめとするグローバル企業において、数年に渡って取り組まれ実装中の事例である。DITA CCMSにも増して全社規模の集中管理されたOAXALフレームワークとしての翻訳工程管理は、ある意味成熟した技術である。単なるグローバルスタンダードや海外の事例の紹介ではなく、国内においても、DITAとXLIFF(CCMSとXTM)スタンダードを有効活用し、OAXALの新しい取り組みとしての国内におけるイノベーションとなるべく国内発のOAXAL事例としての情報発信を是非とも実現したい。


トピックパッケージプロセス(DITA Topicの翻訳)


XLIFFパッケージプロセス(よりOAXALな)