2016年5月25日-26日、東京・品川において、IBM Watson Summit 2016が開催された。
これまで、IBMが開催してきたプライベートカンファレンス「XCITE Japan」を進化させたイベントで、IBMがコグニティブ・コンピューティングと呼ぶ人工知能技術Watsonを中心に、新しいテクノロジーによる新しいビジネスへのアプローチと実装に向けた具体的な方法を、経営課題・お客様の役割などの視点に合わせて、豊富な事例やデモを交えて紹介して、多くの来場者を集めていた。
そこで、IBM Watson Summitで行われたアナリティクス関連セッションのレポートをお届けする。日本アイ・ビー・エム株式会社のアナリティクス事業部でビッグデータ Spark スペシャリストを務める 田中 裕一 氏が「高速で柔軟なアナリティクス基盤が企業をアジャイルに進化させる-Sparkの活用」と題して講演した。
IBMのSparkエキスパートの一人である田中氏は、これまでWeb系・広告系企業において、HadoopやSpark/KafkaといったHadoopエコシステムを利用した広告システム(DMP)・行動分析基盤・レコメンド基盤の開発・運用に携わってきた。全体アーキテクチャ設計やプログラミング、最適化、行動解析を担当するだけでなく、HadoopやSparkのコミュニティでも活躍し、多くの解説書の著者となっている。2016年には、Spark/Hadoopを多様な業種に広げるため、活動の場をIBMに移したという。
ゴミ箱になるリスク
以前から企業では、データウェアハウスといった名前で、ビジネス情報を収集・整理・分析する基盤の整備を進めてきた。しかし、大きなゴミ箱になってしまったという例は少なくない。その理由として、田中氏が上げたのが次の3点である。
- データが集められない
- 目的に特化しすぎ
- 分析結果が生きない
データが集められないケースでは、まず、どんなデータが存在しているかをきちんと把握できていない場合があるという。たとえば、組織やシステムが細分化しているため、必要なデータを隣の部署が持っていても知らないといったことが起こる。また、すでに存在が分かっているデータにだけ注目して、そこを深堀していくが、新しい種類のデータの発掘をしないといった場合もある。さらに、セキュリティポリシーやガバナンス・個人情報の取り扱いルールなどの制約により、データ自体を基盤に入れることができないといった例もある。
こうしてデータが集められないために、アナリティクス基盤の利用が促進されないのだ。
目的に特化しすぎというケースでは、たとえばレコメンドをやりたいというように、企業にとって目的意識が明確すぎる場合である。その目的が達成できて新しい知見が得られると、継続してデータを収集・分析する意識が薄れてしまうのだ。また、エンジニアだけアナリストだけといった、特定の専門家だけのチームもリスクを抱えているという。エンジニアだけのチームは、アーキテクチャやミドルウェアに意識が向きがちで、ビジネス価値の最大化にコミットする視点が欠けてしまうことがあるのだ。
さらに、分析結果が生きないケースとしては、データが「見たいときに見えない」「分析結果が連携できない」「ナレッジが共有されない」といった場合があるという。
リスクを避けるには
トライアル要素の強いビッグデータ分野において、このようなゴミ箱化するリスクを最小化する為に、田中氏は、システム開発や運用を担うエンジニア、数学的なバッググラウンドを持つデータサイエンティスト、ビジネス視点を備えコミュニケーション能力に優れたビジネスアナリストといった、複数のロール(役割)を意識することが必要になると述べた。
そして、「問題提起」「リサーチ」「検証」「モデル化」「テスト」といった一連のフローに対して、ロールをマッピングして、チームメンバーの各人がロールを意識しながら、フローを高速にまわしていくことが重要だと述べた。このサイクルを高速に回すことで、小さな失敗を積み上げて、データに対するトライ&エラーの速度と柔軟性を最大化することが可能になる。