Facebookは米国時間10月19日、100言語中の任意の2言語を英語を介することなく翻訳できる多言語機械翻訳(MMT)モデル「M2M-100」を発表し、オープンソースで公開した。
M2M-100は、翻訳時に中間言語を介する必要がないため、より正確な翻訳が可能になると考えられる。一般的な翻訳モデルでは、英語が中間言語に据えられてきている。このため、例えば中国語をフランス語に翻訳する場合、いったん英語に翻訳する必要がある。
Facebookは、2言語間での直接翻訳によってより多くの意味を捉えられるとともに、英語を介するシステムに比べた場合、機械翻訳の自動評価指標であるBLEUスコアが10ポイント高くなるとしている。
M2M-100は、2200に及ぶ言語の組み合わせによって訓練されている。Facebookは社外の研究者らに向けて、M2M-100のモデルと訓練、評価の設定を公開する予定だ。
Facebookはニュースフィード上で毎日200億件の翻訳を処理しているという。同社によると、従来の機械翻訳では各言語に対応する人工知能(AI)モデルが必要となるが、このようなアプローチはFacebookにはあまり有効ではない。
MMTモデルを訓練するために同社は、英語を介さずに翻訳された、複数の言語による良質なペアを選び出す必要があった。なお世の中には、こういった言語間の直接翻訳よりも、英語への翻訳の方が数多く存在している。Facebookは最終的に100種類の言語をまたがる75億もの文章のペアからなるMMTデータセットを構築した。同社はそこから高品質でデータ量の多いペアを絞り込むとともに、統計的に見てまれにしか登場しない言語のペアを除外したという。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。