データネットワークとストレージの進歩によって、組織は従来よりもはるかに多くのデータを手に入れられるようになった。それは、製造用機械や車両から、あるいはウェブ対応の冷蔵庫(私もまだ見たことはないが)のような革新的なデバイスから、次々と生み出される計測データかもしれない。
企業の最高技術責任者(CTO)がデータストレージの問題を解決するのは、それほど難しくない。「MongoDB」によるクラウドデータベースを使うという手もあれば、CloudantからDBaaSのサービスを受ける手もあるだろう。しかし問題は、その目的だ。企業は、それらの構造化されていないデータをどう扱ったらいいのだろうか?
最初にやるべきことは、自分たちが何を求めているかを知ることだろう。もし、企業にビッグデータが必要な理由について明確な考えがなく、ただ漠然と、何かよいものが手に入るはずだと思っているなら、分析は単なる盲信になりかねない。
ビッグデータのニーズを特定する
ビッグデータの分析は、ITのほかの分野と同様に、ビジネスニーズに応じて行われるべきものだ。組織がビッグデータに取り組み始める前に、まず要件を明確にする必要がある。
世の中に同じ組織が2つとないように、ニーズもそれぞれ違っている。IT部門には、次のような要件が与えられるかもしれない。
- 状況がすぐにレポートできるようデータをかみ砕く。
- 遠隔測定データをリアルタイムでデコードする。
- 膨大な情報の中にある、少量の特定の情報を見つける。
- 膨大な情報の中から、一般的な運用パターンを見出す。
分析はサービス指向の分野であり、CTOはこの仕事をアウトソースすることも可能だ。しかし、もしこれを社内で行うのであれば、CTOにはもう少し知っておくべきことがある。
分析アプリケーションを手に入れる
分析アプリケーションは、大規模データをビジネス的な価値を持つ情報に変えるのを手助けする道具だ。企業は分析ツールを使って、構造化されていないデータから何らかの役に立つ情報を引き出すという、困難な仕事に取り組んでいる。
データ分析ツールは、ビッグデータ関連製品であり、データサイエンティストのツールボックスの中にある道具の1つだ。分析ツールは通常、そのままビジネスで使える情報を提供してくれることはない。
分析アプリケーションを購入する際には、トレーニングのための予算を十分に残しておくべきだろう。複雑なツールは、直感的に使えるものではなく、使いこなすにはトレーニングが必要だ。
ビッグデータに関するポリシーを策定する
大規模データセットの処理は、難しい作業だ。ビッグデータの処理ツールには、要件に応じて調整すべき点が多くある。
- データの保持ポリシーはどうなっているか?データのどの部分は削除可能で、いつ削除すべきか?残る古いデータはどうするのか?
- データ保護ポリシーはどうなっているか?データを見ることができるのは誰か?プライバシ上どのような問題があるか?どのような法的制約があるか?
- どこにデータを保存するか?クラウドプロバイダがデータを持っている場合、どのようにそれを手元に持ってくるか?
- どのようなメタデータが必要か?ビッグデータ保存の目的は定められているか?
- いくつのデータセットが存在し、それらをどのように組み合わせるか?