分析のためのデータ準備に、
多くの時間を費やしていないか?
IoTやAIが普及してきたことを受け、それらを活用してビジネス変革を図ろうとする企業が増えている。しかし、これまでアナリティクス(データの分析・活用)に取り組んでこなかった企業が、こうしたテクノロジーを活用しようとするときに、留意すべき点がある。それが、“データマネジメント”だ。分析に先立って、元データを整理・整形して分析に適した形のデータに作り替え、ユーザーが自由に加工できる状態にしておくことが、ことのほか重要になる。
SAS Institute Japan
シニア コンサルタント
ソリューション統括本部
プラットフォームソリューション統括部
Information Platform Innovationグループ
川上智史氏
「アナリティクス(データの分析・活用)が失敗する原因の4割は、“プアなデータ”のせいだと言われています。人間の身体に濾過されたきれいな水が必要とされるように、アナリティクスにも“きれいなデータ”が必要なのです。そのきれいなデータを用意するために必要なのがデータマネジメントであり、どれだけ先進的な分析ツールを使おうが、適切なデータマネジメントを行わなければデータを役立てることができません。逆に、データマネジメントをうまく行うことで、分析の質が向上し、より良い意志決定につながります」と話すのは、SAS Institute Japanの川上智史氏だ。
実際、分析しようとしたときに、「必要なデータがどこにあるのかわからない」「コード体系が異なっていて結合できない」「データ項目の定義が不明で使えない」といった壁に直面するケースを耳にすることが多い。
川上氏は、「分析作業を行い意思決定するまでの期間のうち、全体の8割程度の時間がこのようなデータ準備の期間にあてられています。その結果、肝心の『分析結果の説明』『数値に基づいた議論』といった課題解決にあてる時間は約2割程度となってしまうのです。我々は、データマネジメントの効率化を図ることで、この比率を逆にして、8割を課題解決そのものに充てられるようにすることが重要だと考えています」と説明する。
データマネジメントに重要な
5つの「S」
通常、データをビジネスに活用する上では、どのようなデータをどのように分析すればビジネスに役立つのかを見極めるために、何度かの試行錯誤が必要となる。これまでのように定型的なレポートを作成するような場合、ビジネスユーザーが定義したアウトプットに対し、その要件に従ってIT部門がデータを作成するというプロセスを繰り返すことが一般的だった。レポートを作るだけなら、このような試行錯誤を繰り返す時間も許容されるかもしれない。
しかしアナリティクスを頻繁に、かつ柔軟に活用していくには、毎回時間をかけて試行錯誤する、あるいはIT部門に負荷がかかるようなやり方は現実的ではない。ユーザー自身がアナリティクスを日常的に行うには、ユーザー自身が試行錯誤しながらデータ加工できる仕組みを整え、アナリティクス用に最適化された“Analytics-Ready”なデータをセルフサービスで得られるような環境が必要となる。
このときに重要になるのが、「Simplify」「Strengthen」「Scrub」「Shape」「Share」という5つのステップ、すなわち「5つのS」だ。そして、SASのプラットフォームでは、「5つのS」のぞれぞれの要素に対して、効果的な機能を提供している。以下で、各要素についてみていこう。
図:データマネジメントの5つの「S」
○Simplify:データアクセス・データ移動の最適化
生データは、しばしば複数の異なるデータソースから得られるが、まずそうしたデータソースに対し容易にアクセスできるようにしておくことが重要だ。さらにIoTやAI活用を意識するなら、リアルタイム性も重視される。一方で、時間を要してしまいがちなデータ移動を最小限にとどめるため、データ仮想化も効果的だ。
「ビッグデータ分析が始まった頃には、『まず蓄積してから使う』というスタンスが基本とされてきましたが、これではデータを溜めすぎて使いづらくなってしまいます。そこで我々は、データを蓄積するタイミングからリアルタイムな活用を意識し、蓄積しながらリアルタイムに使えるようにしていけるテクノロジーに取り組んでいます」(川上氏)
具体的なプロダクトとしては、インメモリ処理により大量のストリーミングデータを非常に高速で扱える「SAS Event Stream Processing」、多様なデータソースをそれぞれの独立性や整合性を保ちつつ仮想的に一つのデータベースとして扱えるようにする「SAS Federation Server」などが挙げられる。
○Strengthen:プロファイル・統計分析・相関分析
Strengthenは、統計分析や相関分析を行ってデータの状況や品質を把握する、いわばプロファイリングだ。例えばどのような値が分布しているのか、といった一次分析を通じて得られたデータの全体像を可視化しておくことで、分析に供する際の利便性が高まる。
○Scrub:クレンジング・品質向上
Scrubとは、その品質を高めるためのデータクレンジングのこと。表記のブレを修正してデータを標準化し、名寄せなどのデータ統合を行うほか、住所データを都道府県/市区町村/番地/ビル名など細かな単位に分割する(パース)などの加工を施し、より扱いやすくする。