学習データ不足が与えるAI開発現場への影響

Charly Walther （Gengo）

2018-12-17 07:00

　前回記事では、AI（人工知能）開発のスピードが遅れている理由について取り上げました。簡単におさらいをすると、AIの開発スピードがデータ科学者の予測と比べて遅れているのは、利用できる学習データが不足していることが主な理由です。この事実をもとに、世界中で現在の学習データ不足の原因となっている、数々の要因についても検討しました。

　企業は、AIの開発に必要なデータの確保や収集にかかる最低限のコストを過小評価しがちです。さらに、データ収集に投資した企業がプライバシーの問題や他社との競争に負けることを恐れて、収集したデータを他社と共有するのを拒否するため、業界として発展を遂げにくいことも明らかになりました。

　今回は、この世界的に問題となっている学習データの不足が、実際どのようにして技術革新に影響を与えているかを解説します。

　まず、AIの開発状況に関して説明すると、現在、データを研究する科学者は、自動運転や機械翻訳、カスタマーサービスのチャットボット、ソーシャルメディアマーケティングの感情分析など、特定のタスクに特化した学習モデルやアルゴリズムの構築に力を入れています。いわゆる「単純AI」と呼ばれているものです。

　現段階では、複数の産業をまたいで利用できる多目的AIの開発はまだ十分に進んでいません。さらに、特定のタスクに限定して利用されている単純AIでさえまだ初期の段階であり、ユーザーが満足できる状態ではないことが多いのです。

　例えば、自動運転を実現するためには、さまざまな機械学習プロセスを用いてAIを学習させ、運転を任せられる状態にしなければなりません。リアルタイムで画像や映像のデータを処理することから、他の車両に安全に対応することまで、幅広く対応できるAIモデルが不可欠です。

　自動運転の開発には大量の意味付けをした画像の学習データが必要となります。画像アノテーションは、教師あり学習で前処理を行うための重要な第一段階であり、自動運転の基盤となる画像認識アルゴリズムを改良するためには、一つひとつのデータに手作業でタグ付けしたデータセットを用意する必要があります。

　画像アノテーションのプロセスは手作業で行う時間のかかる作業なので、やりたがる人は多くありません。自動運転のためのイノベーションに必要な画像アノテーションデータが不足しているのもこうしたことが主な理由になっています。

　ほとんどの機械学習モデルと同様に、機械翻訳が使用可能な翻訳文を効果的に生成するためには大量の学習データが必要ですが、この分野でも重要な学習データが不足しています。機械翻訳は人間の助けを借りずに機械が文章の翻訳を行うことです。ジョージタウン大学の研究者らが初期の機械翻訳システムを最初に公開したのは1954年にさかのぼりますが、現在でも完璧な機械翻訳技術は存在しないのです。

　近年、スピーディで安価にできる翻訳に対する需要の増大に応えるため、技術進歩のおかげもあり、機械翻訳全体として性能の改善が行われてきました。それでも、完璧な翻訳からはまだかけ離れています。しかし、多くの企業が従来型の翻訳から機械翻訳を活用するようになってきているのも事実です。AIがいつの日にか、これまで翻訳業界を背負ってきた人間のトランスレーターや言語スペシャリストに取って代わるのではないかと考える人も多くなっています。

　そのような需要に応えるべく、改善を遂げてきている機械翻訳ですが、大きな課題も残っています。

人間らしいニュアンスを把握できない：どのような機械翻訳システムにおいても言語に関わる主な課題の一つになっているのは、機械は人間と同じレベルで言語の微妙なニュアンスを把握することができないということです。品質が大きく改善されたとはいえ、自動翻訳は不自然な言い回しが含まれたり、直訳だったり、全体的に不正確な翻訳になったりすることが多いのです
SEO（検索エンジン最適化）に悪影響を与える：検索エンジンアルゴリズムは当初導入されたころからかなり大きく変化しました。GoogleやBingのような検索エンジンは悪いコンテンツやスパムを積極的に探すので、コンピュータが生成したテキストを簡単に見分けることができます（その検索エンジン会社の翻訳ツールが使われている場合は特にそうです）。その結果、機械翻訳によるコンテンツは人間の翻訳による同様のコンテンツより低くランク付けされてしまいます
言語ペアによって品質が異なる：機械翻訳にまつわるもう一つの問題は、言語ペアによって翻訳の品質が大きく異なることです。例えば、ドイツ語と英語やイタリア語とフランス語のように同じ統語構造を持つ言語間の翻訳は機械翻訳が容易に対応できます。しかし、異なる統語構造を持つ言語間や、あいまいな言い回しが多い言語であるトルコ語や日本語などの翻訳は、より困難になるのです

　機械翻訳は多くの場合、人間による翻訳より安くて早いと考えられています。しかし、機械も間違いを犯しますし、機械翻訳の品質は通常、人間による翻訳に大きく劣っています。このように品質の差が出る大きな理由の一つは、自然言語処理の学習データ不足なのです。

　自然言語処理は、言われたことを認識し、その意味を理解して、適切な行動を決定し、ユーザーが理解できる言語で反応する機械の能力の総称です。単に模範的な構文を理解するだけでなく、言語の意図された意味を理解しようという試みである自然言語理解も自然言語処理の一種です。自然言語理解は、ニュアンスや微妙な表現、発音の誤り、口語など複雑な人間の話し言葉に対処するために設計されています。

　自然言語処理は、特に大量の学習データを必要とするAIの一種で、機械が人間のユーザーとコミュニケーションを取るために利用されています。しかし、ユーザーは、コミュニケーションのスピードアップに役立つのであれば機械翻訳を活用しますが、コミュニケーションに違和感を覚える場合はそうではありません。

　現在の自然言語処理のレベルでは、インプットされた単語を認識することはできるかもしれませんが、必ずしもその意味を理解するとは限りません。人間の会話ではしばしば、同時に複数のトピックについて話したり、脱線したり、冗談や皮肉が随所に入っていたりします。機械がアルゴリズムを使ってこれを理解し、それに対して反応するのは困難です。

　さらに、言語は時代の流れとともに変化します。私たちは何百年も前の祖先とは異なる単語を使い、異なる話し方をしています。データ科学者による機械翻訳のイノベーションに終わりがないのはこのためです。本流となる言葉やフレーズが時とともに変化するため、データ科学者は常に、人間が注釈を付けた新しい学習データを翻訳アルゴリズムに学習させなければならないのです。

　自然言語処理においてこの技術的な課題を乗り越える解決策は、学習データの量を増やすことです。機械翻訳の学習データは対訳コーパスデータセットとして提供されます。これは二言語間の訳文セットを構造化したものです。

　機械翻訳を改善するための最も良い方法の一つは、継続的にアルゴリズムに学習させ、二言語間の翻訳に関してできるだけ経験を積ませることです。多くのデータを学習させるほど、アルゴリズムはそれぞれの言語に独特な俗語やフレーズ、ニュアンスに適応することができます。

　データ科学者は、ほぼどのような最終用途のためにAIモデルを構築する場合でも、高品質で大量の学習データを必要とします。学習データの量を増やすと、それだけ効率よく、機械学習モデルが現実の世界で正確な結果を生成できるようになります。

　しかし、学習データの不足が騒がれている中、データの品質はデータの量と同じくらい、あるいはそれ以上に重要であることを忘れないようにしましょう。非常に詳細な注釈が付けられたクリーンなデータを100個用意する方が、品質の悪いデータが100万個ある場合より、アルゴリズムを改善するために役立ちます。どのような種類のアルゴリズムを構築しようとしている場合でも、利用するデータの量、品質がアルゴリズムに確かな基盤と圧倒的なクオリティ向上の可能性だといえるのです。

Charly Walther: Gengo プロダクト＆グロース担当バイスプレジデント; ベルリン出身。イエール大学卒業。サンフランシスコでKPCB Product Fellow、Uber（Uber Advanced Technologies Group）のプロダクトマネージャーを経て2017年にGengoへ参画。現在はGengoAIの開発に従事。