AIの導入を妨げる3つの理由--データのサイロ化、使えない生データ、データの信頼性不足

今井浩（クリックテック・ジャパン）

2020-09-28 07:00

　新型コロナウイルス感染症が人工知能／機械学習（AI/ML）の導入にどのような影響を与えることになるのか、結論はまだ出ていません。しかし、これまでの兆候を見る限り、企業は変化した世界で事業を継続するためにAI/MLへの依存度を高めており、導入は増加の一途をたどることになりそうです。

　AIへの投資を実のあるものにするためには、データレイクによるデータの集約、生データを分析可能な形にする自動変換、データの信頼性を高めるためのガバナンスという、データ管理の3つの課題を考慮すべきです。

　IDCの調査にあるように、パンデミック以前、AI/ML市場は力強い成長を続け、2023年には世界の支出額が1000億ドル近くにまでなると見られていました。この予測はどうやら変わっていないようです。実際、コロナ禍はAI/ML市場の成長を促進させる触媒の役目を果たしているように思われ、大小の企業が事業環境を予測するためにAIを導入し、この先待ち受けている事態に備えるための手段を模索しています。

　AIはあらゆる業界で新型コロナウイルス感染症によって引き起こされた混乱に対応する潜在的な能力を有しており、小売分野におけるタッチレス型のロボデリバリーや、医療分野でのリモート診断といった従来は空想の世界だったソリューションを実現する大きな可能性を有しています。

　そこで、AI/MLの導入のアキレス腱となっているのが、適切なデータ管理です。AI/MLモデルは、人間には識別できない微細なパターンを認識するという点で非常に優れています。しかし、パターンを認識できるようになるためには、大量のデータに触れ、AIの訓練を行っておく必要があります。加えて、一般的な汎用のAI/MLモデルというものは存在しないため、データ間の関連付けをしなければなりません。

　例えば、数千のオファーの中から特定のオファーに反応する顧客の傾向を予測するAIソリューションや、数百万件のトランザクションの中から不正行為を見つけるソリューションに対し、適切なデータを使ってそのタスクに対応するよう訓練を施す必要があります。

　AI/MLを導入するに当たっての最大の問題は、適切なデータ管理です。企業は確かに大量のデータを抱えてはいるものの、それらのデータを明確に定義され、アクセスが可能で適正さと完全性という特性を備えたものにするための適切なテクノロジーを持っていません。問題を掘り下げていくと、AIの取り組みの成功を妨げている3つの重大なデータ課題が存在します。1つ目の課題は以下のようなものです。

課題1．サイロ化された複数種のデータストリーム

　企業では、あらゆる種類のマルチフォーマットデータ（テキスト、トランザクション、調査、顧客の声〈VOC〉、ソーシャルメディア、画像、ロケーションなど）を収集し、さまざまな地域および事業部門でそれぞれ異なるシステムに格納しています。

　従って、AI/MLモデルの訓練に使用するデータのソースとタイプによって、結果に偏りが出てしまうことが考えられます。AI/MLから精度の高い洞察を得るには、全ての関連データを格納するための単一の統合リポジトリー（貯蔵庫）が必要です。

　データレイクは、構造化、半構造化、非構造化の全てのデータを大量に格納することができ、AI/MLモデルにデータを与え、訓練を行うための単一の中央データソースを提供します。しかし、データレイク自体は、AI/MLの取り組みに対し価値を提供することはほとんどありません。これによって、2つ目の課題がもたらされることになります。

課題2．未精製の大量の生データと一貫性のないメタデータ

　MLモデルの訓練を行うには、データコンシューマーはすぐに分析可能な最新のデータストリームを継続的に「食わせる」必要があります。データレイクは単一のデータソースを提供するものの、それ自体は未変換の生データを格納するためのものであり、共通のデータ定義／メタデータを伴うことはありません。

　タグ付けされていないデータや、それが何を意味するのか説明のないデータは、モデルに何を教えるべきかを示すマーカーが存在しないため、MLには使用できません。さらには、生データの標準化、初期化、精製を行い、すぐに使用可能な状態にすることは、時間がかかる上に大量のコードを記述しなければならない可能性があり、専門のスキルが必要になってきます。

　自動化は、生データを変換・精製して、すぐに分析可能な状態にするための処理の高速化に役立つだけでなく、データエンジニアリングとプログラミングの専門スキルの必要性を軽減します。

　また、標準化・統合化したデータカタログを使うことで、充実したメタデータを容易に作成し、データを分かりやすく、検索可能なものにすることができます。しかし、スピードのニーズと、信ぴょう性と信頼性のニーズとのバランスを取る必要があります。これによって、第3の、そして最も重要なデータ課題がもたらされます。

課題3．データの信頼性の不足

　AIの信頼性を高めるために検証可能性が求められている一方で、もう1つ、極めて重要な側面があります。それは、AIモデルを構築するための「データの信頼性」です。

　つまり、データは安全なのか、データ間の依存関係を把握できているのか、誰がどのデータにアクセスできるのかを知ることが重要になります。第1世代のHadoopベースのデータレイクは、データセキュリティやガバナンスの標準機能の不足から、データに対する不信感を増幅させる結果となりました。

　データの信頼性は、ソースおよびターゲットスキーマの同期のための変更伝播、系統をエンドツーエンドで把握するための変更履歴の維持、エンタープライズレベルのアクセス制御を可能にする統合型のセキュリティとガバナンスといった多数の要素によってもたらされ、これらはいずれも劣らず重要です。これらは重要な要素であり、データサイエンティストは面倒なデータの準備を回避して、重要性の高いモデリングや訓練のタスクに集中して取り組むことができます。

　今後、AIの利用は加速する一方です。しっかりと設計された最新のデータレイクは、信頼性があり、すぐに分析が可能なデータからなる単一のソースを提供し、AI投資の利益の最大化を促進します。