OSSとビッグデータアナリティクス

アナリティクスの難所“データの理解”とは

島田 茂(日本テラデータ) 2016年07月11日 07時00分

  • このエントリーをはてなブックマークに追加

はじめに

 前回、アナリティクスにおける「データ収集」について解説し、必要な情報を柔軟に収集するソフトウエアがOSSにより整備されつつあることを紹介した。第3回では、収集後のステップである「データ整理・加工」を中心に解説し、「関係性探索」まで言及したい。

 アナリティクスのプロセスの中で、最も時間と労力を費やす作業が、「データ整理・加工」と「関係性探索」であり、一番の難所である。データ量と種類が増えれば、さらに作業量が増えてしまうステップである。難所と言われている所以は、以下の通りである。

・利用するデータを全て確認・理解する必要がある

 データをシステムに取り込むということは、データ型を何かしら定義する必要があり、意図した型でない場合、データベースやプログラムに組み込めなくなる。その原因調査も作業として発生してしまう。また文字コードも問題になることが多い。また、不完全なデータを利用すると、モデル全体の信頼性が損なわれてしまう。データ量や種類が増えると、データを理解する確認作業だけでも大変になり、関係性探索の工数が爆発的に増えてしまう。

・アナリティクスの対象とその目的に応じてデータを取捨選択するだけでなく、採用したデータの持ち方や粒度を目的や落としどころによって変えなければいけない

 例えば、センサデータの分析であれば、どんな基準で数値を採用するのか。時間単位(秒単位、分単位、またはその1分間の平均値など)、動作単位、特定イベント単位など。パスパターン分析であれば、パスを状態遷移と見た時に、1つの状態をどんな基準で定義するのか、タッチポイントの履歴にするのか、動作単位にするのかなど。カスタマージャーニーであれば、訪問サイトのページ毎に1つの状態とするか、Webサイトに訪れたこと自体を1つの状態とするかなどである。

・分析用データセット作成に時間を費やすだけでなく、再作成の頻度が高い

 意味のある分析結果が得られない場合、再度仮説を練り直し、データセットを再作成し中ればならない。また、モデル案に必要なデータが足りないことが発覚した場合は、データ収集に立ち戻り、データセットを作り直さねばならない。

 このように、データ確認・理解からモデル構築までの過程でどこかに変更が発生した場合は、分析用データセットも変更しなければならない。分析担当者の仕事の大半は、この地道な作業の繰り返しなのである。

 当稿の主題が、ビッグデータの本質は、アナリティクスの繰り返しであること、且つアナリティクスにおけるディスカバリーとは、仮説構築(モデル案作成)、検証(分析用データセット作成とシミュレーション)の繰り返しであることは前回にも紹介したが、まさにこのステップがアナリティクスの中心である。

 ビッグデータという言葉が注目され始めた時から、大量データを分析すれば、何かしら新らたな洞察(インサイト)が簡単に得られるという誤解が蔓延しているが、蓋を開ければ、アナリティクスとは、データ量に関係なく前述のような地道な作業を愚直に繰り返すことに何も変わりはない。

 「データ整理・加工」のプロセスは、アナリティクスにおいては“中間プロセス”であり、その作業価値は社内の関係者ですら理解し辛いものであるが、実は予測モデルの結果や精度を左右する最も重要なプロセスなのである。

データ整理・加工と関係性探索

 データ整理・加工に取り掛かる際には、事前にアナリティクス対象の構造化仮説(モデル案)がこのステップの前に、チームで共有されていることが前提となる(個人で作業しているのであれば、確固たる仮説があること)。その上で、以下の3つがデータ整理・加工と関係性探索のステップである(図1)。

(図1)
図1
  • モデル案と今あるデータに適用するモデリング手法の選定
  • モデルを構成する要素(データ)候補の整理・加工
  • その要素同士の関係性を確認・検証

 要素の関係性(『思考・論理・分析』波頭亮、産業能率大学出版部)とは、図1右下の図に類別される。関係があるとすれば、それは相関関係(正の相関・負の相関)なのか。因果関係であれば、意味的な因果関係なのか、時系列的な因果関係なのか、など各要素の関係性をデータを使って地道に選別していく。

 適用する手法については、単純な例として、目的変数と説明変数が相関関係を持てば、回帰分析を適用し、時間的因果関係があれば、ベイズ推定を適用するのであろう。複雑度にもよるが、複数の手法を組合せることもある。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

この記事を読んだ方に

関連ホワイトペーパー

連載

CIO
IT部門の苦悩
Rethink Internet:インターネット再考
インシデントをもたらすヒューマンエラー
トランザクションの今昔物語
エリック松永のデジタルIQ道場
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
「企業セキュリティの歩き方」
「サイバーセキュリティ未来考」
「ネットワークセキュリティの要諦」
「セキュリティの論点」
スペシャル
ざっくりわかるSNSマーケティング入門
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
Microsoft Connect()
HPE Discover
Oracle OpenWorld
Dell EMC World
AWS re:Invent
AWS Summit
PTC LiveWorx
より賢く活用するためのOSS最新動向
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
米株式動向
日本株展望
企業決算