米ZDNet編集長Larryの独り言

ゴミから得られるのはゴミだけ--機械学習はデータ品質の問題を解決するか

Larry Dignan （ZDNET.com）翻訳校正：石橋啓一郎

2017-11-21 06:30

　はたして、数十年にわたって放置されてきた、データの質が低いという問題を解決するテクノロジを生み出すことはできるのだろうか。おそらく不可能なのだろうが、それでも企業がそれを目指すのを止める気配はない。幸い、機械学習はこのデータ管理作業の課題を解決に近いところまで持って行ける可能性がある。

　データの品質を維持するのは簡単ではない。過去に混入したミスを完全に修正できるだけのインターンを雇うことなど、まったく不可能だ。実際、大企業はこれまで長年の間、データ辞書も、メタデータも、クレンジングされたデータも作らずにきている。確かに、データの品質を保とうとする取り組みには多少の改善が見られるが、現実問題として人間はその仕事に向いていないし、これまでも向いていたことはない。米ZDNetのAndrew Brust記者は、この状況を評して「人間には几帳面さが足りない」と簡潔にまとめている。そしてクリーンなデータがなければ、データサイエンティストがアナリティクスのためのアルゴリズムやモデルを作ることもできない。

　幸運にも、テクノロジ企業は魔法の薬を作り出し、それを（またしても）企業に売り込もうとしている。現在の潮流は、データを管理する抽象化レイヤを作り、アナリティクスを誰でも使えるようにし、機械学習を使った予測によってビジネス価値を生み出すというものだ。そしてそんなアナリティクスの天国の大前提は、これまで企業がなおざりにしてきた仕事をさせるために、機械学習を利用することだ。

　この話に聞き覚えがある人も多いはずだ。前回の魔法の商品は、あらゆる情報（構造化データも非構造化データも含めて）を投げ込んだデータレイクであり、ここにHadoopクラスタやその他いくつかのテクノロジを投入して、そこから意味を引き出すという触れ込みだった。ビッグデータ以前には、データウェアハウスが企業に知見をもたらし、ビジネスインテリジェンスやERPとともに、企業の問題をすべて解決するという話になっていた。まずデータの品質が十分でなければ、企業はこれと同じ失敗を繰り返すことになる。ゴミから得られるのはゴミだけなのだ。しかしもちろん、貴重なデータサイエンティストにゴミ処理をさせたいとは思わないだろう。

　IBMの最高データ責任者Seth Dobrin氏は、「ゴミのようなデータを入力しても、データレイクとHadoop（MapReduce）のインスタンスで何とかなるという考え方が間違っている」と述べている。IBMが「Watson Data Platform」と機械学習を使った一連のツールでデータをクレンジングし、メタデータを付加し、データストア間の結びつきを作っているのも当然のことだろう。IBMのデータプラットフォームは、ミドルウェアとOSの組み合わせに似ているようにも聞こえるが、考え方は分かるはずだ。IBMのデータプラットフォームは、モデルやアルゴリズムの推奨もしてくれる。