OSSとビッグデータアナリティクス

アナリティクスの難所“データの理解”とは

島田 茂(日本テラデータ)

2016-07-11 07:00

はじめに

 前回、アナリティクスにおける「データ収集」について解説し、必要な情報を柔軟に収集するソフトウエアがOSSにより整備されつつあることを紹介した。第3回では、収集後のステップである「データ整理・加工」を中心に解説し、「関係性探索」まで言及したい。

 アナリティクスのプロセスの中で、最も時間と労力を費やす作業が、「データ整理・加工」と「関係性探索」であり、一番の難所である。データ量と種類が増えれば、さらに作業量が増えてしまうステップである。難所と言われている所以は、以下の通りである。

・利用するデータを全て確認・理解する必要がある

 データをシステムに取り込むということは、データ型を何かしら定義する必要があり、意図した型でない場合、データベースやプログラムに組み込めなくなる。その原因調査も作業として発生してしまう。また文字コードも問題になることが多い。また、不完全なデータを利用すると、モデル全体の信頼性が損なわれてしまう。データ量や種類が増えると、データを理解する確認作業だけでも大変になり、関係性探索の工数が爆発的に増えてしまう。

・アナリティクスの対象とその目的に応じてデータを取捨選択するだけでなく、採用したデータの持ち方や粒度を目的や落としどころによって変えなければいけない

 例えば、センサデータの分析であれば、どんな基準で数値を採用するのか。時間単位(秒単位、分単位、またはその1分間の平均値など)、動作単位、特定イベント単位など。パスパターン分析であれば、パスを状態遷移と見た時に、1つの状態をどんな基準で定義するのか、タッチポイントの履歴にするのか、動作単位にするのかなど。カスタマージャーニーであれば、訪問サイトのページ毎に1つの状態とするか、Webサイトに訪れたこと自体を1つの状態とするかなどである。

・分析用データセット作成に時間を費やすだけでなく、再作成の頻度が高い

 意味のある分析結果が得られない場合、再度仮説を練り直し、データセットを再作成し中ればならない。また、モデル案に必要なデータが足りないことが発覚した場合は、データ収集に立ち戻り、データセットを作り直さねばならない。

 このように、データ確認・理解からモデル構築までの過程でどこかに変更が発生した場合は、分析用データセットも変更しなければならない。分析担当者の仕事の大半は、この地道な作業の繰り返しなのである。

 当稿の主題が、ビッグデータの本質は、アナリティクスの繰り返しであること、且つアナリティクスにおけるディスカバリーとは、仮説構築(モデル案作成)、検証(分析用データセット作成とシミュレーション)の繰り返しであることは前回にも紹介したが、まさにこのステップがアナリティクスの中心である。

 ビッグデータという言葉が注目され始めた時から、大量データを分析すれば、何かしら新らたな洞察(インサイト)が簡単に得られるという誤解が蔓延しているが、蓋を開ければ、アナリティクスとは、データ量に関係なく前述のような地道な作業を愚直に繰り返すことに何も変わりはない。

 「データ整理・加工」のプロセスは、アナリティクスにおいては“中間プロセス”であり、その作業価値は社内の関係者ですら理解し辛いものであるが、実は予測モデルの結果や精度を左右する最も重要なプロセスなのである。

データ整理・加工と関係性探索

 データ整理・加工に取り掛かる際には、事前にアナリティクス対象の構造化仮説(モデル案)がこのステップの前に、チームで共有されていることが前提となる(個人で作業しているのであれば、確固たる仮説があること)。その上で、以下の3つがデータ整理・加工と関係性探索のステップである(図1)。

(図1)
図1
  • モデル案と今あるデータに適用するモデリング手法の選定
  • モデルを構成する要素(データ)候補の整理・加工
  • その要素同士の関係性を確認・検証

 要素の関係性(『思考・論理・分析』波頭亮、産業能率大学出版部)とは、図1右下の図に類別される。関係があるとすれば、それは相関関係(正の相関・負の相関)なのか。因果関係であれば、意味的な因果関係なのか、時系列的な因果関係なのか、など各要素の関係性をデータを使って地道に選別していく。

 適用する手法については、単純な例として、目的変数と説明変数が相関関係を持てば、回帰分析を適用し、時間的因果関係があれば、ベイズ推定を適用するのであろう。複雑度にもよるが、複数の手法を組合せることもある。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

自社にとって最大のセキュリティ脅威は何ですか

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]