米ZDNet編集長Larryの独り言

ゴミから得られるのはゴミだけ--機械学習はデータ品質の問題を解決するか

Larry Dignan (ZDNET.com) 翻訳校正: 石橋啓一郎

2017-11-21 06:30

 はたして、数十年にわたって放置されてきた、データの質が低いという問題を解決するテクノロジを生み出すことはできるのだろうか。おそらく不可能なのだろうが、それでも企業がそれを目指すのを止める気配はない。幸い、機械学習はこのデータ管理作業の課題を解決に近いところまで持って行ける可能性がある。

 データの品質を維持するのは簡単ではない。過去に混入したミスを完全に修正できるだけのインターンを雇うことなど、まったく不可能だ。実際、大企業はこれまで長年の間、データ辞書も、メタデータも、クレンジングされたデータも作らずにきている。確かに、データの品質を保とうとする取り組みには多少の改善が見られるが、現実問題として人間はその仕事に向いていないし、これまでも向いていたことはない。米ZDNetのAndrew Brust記者は、この状況を評して「人間には几帳面さが足りない」と簡潔にまとめている。そしてクリーンなデータがなければ、データサイエンティストがアナリティクスのためのアルゴリズムやモデルを作ることもできない。

 幸運にも、テクノロジ企業は魔法の薬を作り出し、それを(またしても)企業に売り込もうとしている。現在の潮流は、データを管理する抽象化レイヤを作り、アナリティクスを誰でも使えるようにし、機械学習を使った予測によってビジネス価値を生み出すというものだ。そしてそんなアナリティクスの天国の大前提は、これまで企業がなおざりにしてきた仕事をさせるために、機械学習を利用することだ。

 この話に聞き覚えがある人も多いはずだ。前回の魔法の商品は、あらゆる情報(構造化データも非構造化データも含めて)を投げ込んだデータレイクであり、ここにHadoopクラスタやその他いくつかのテクノロジを投入して、そこから意味を引き出すという触れ込みだった。ビッグデータ以前には、データウェアハウスが企業に知見をもたらし、ビジネスインテリジェンスやERPとともに、企業の問題をすべて解決するという話になっていた。まずデータの品質が十分でなければ、企業はこれと同じ失敗を繰り返すことになる。ゴミから得られるのはゴミだけなのだ。しかしもちろん、貴重なデータサイエンティストにゴミ処理をさせたいとは思わないだろう。

 IBMの最高データ責任者Seth Dobrin氏は、「ゴミのようなデータを入力しても、データレイクとHadoop(MapReduce)のインスタンスで何とかなるという考え方が間違っている」と述べている。IBMが「Watson Data Platform」と機械学習を使った一連のツールでデータをクレンジングし、メタデータを付加し、データストア間の結びつきを作っているのも当然のことだろう。IBMのデータプラットフォームは、ミドルウェアとOSの組み合わせに似ているようにも聞こえるが、考え方は分かるはずだ。IBMのデータプラットフォームは、モデルやアルゴリズムの推奨もしてくれる。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    警察把握分だけで年間4000件発生、IPA10大脅威の常連「標的型攻撃」を正しく知る用語集

  2. セキュリティ

    まずは“交渉術”を磨くこと!情報セキュリティ担当者の使命を果たすための必須事項とは

  3. セキュリティ

    「2024年版脅威ハンティングレポート」より—アジアでサイバー攻撃の標的になりやすい業界とは?

  4. ビジネスアプリケーション

    Microsoft 365で全てを完結しない選択、サイボウズが提示するGaroonとの連携による効果

  5. セキュリティ

    生成AIを利用した標的型攻撃とはどのようなものなのか?実態を明らかにして効果的な対策を考える

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]