本特集「ビッグデータとは何か」の過去2回では、ストレージ、そしてデータ管理という「ビッグデータ」のインフラについて述べてきた。今回は「ビッグデータ」のアプリケーション(応用)について考えていこう。
広くとらえたいビッグデータの応用
最初に述べておきたい点は、一般的な認識では「ビッグデータ」は(大量データの)分析と表裏一体ととらえられているかもしれないが、その認識はやや限定的にすぎるのではないかということだ。もちろん、データ分析が「ビッグデータ」の最も重要な活用法であることは否定しないが、本特集の第1回でも述べたように、ビッグデータの応用分野は分析だけではなく、大量データの配信(典型的にはマルチメディアストリーミング)と保存(典型的にはイメージ情報のアーカイブ)も含めて考えるべきだ。
「ビッグデータ」が多様なアプリケーションで活用される以上、その有効活用にはインフラとデータの共用が不可欠だ。アプリケーションごとにデータ管理のインフラを縦割り型に作る従来のやり方は、(従来でも大きな問題であったのだが)ビッグデータの世界ではあまりに非効率的だ。ペタバイト級のデータを準備して特定のアプリケーションでしか利用できないというのではお話にならないだろう。
また、「ビッグデータ」の世界では今まで想定されていなかったデータの活用法が生まれることがある点にも注意が必要だ。たとえば、検索エンジンへの入力ログの活用法としてすぐに思いつくのは、検索語の傾向分析、ランキングアルゴリズムの改善、追加検索語のサジェストなどだ。
これに加えて、Googleをはじめとするサーチエンジンでは、入力ログを活用した入力修正機能(いわゆる「もしかして」機能)の提供が一般的になっている。大量の入力ログデータを分析し、たとえば「蓮根ミク」と入力した直後に「初音ミク」と入力して検索するユーザーがある程度いることがわかったとする。その場合には「蓮根ミク」は「初音ミク」の入力ミスである可能性が高いとして、「蓮根ミク」と入力したユーザーに対して「もしかして『初音ミク』のことですか」と尋ねることができる。文字コード的には「蓮根」と「初音」はまったく違うので、単純なスペルチェックのアルゴリズムでこのように自動修正することは難しい。
ここでのポイントは、ある目的のために収集されたビッグデータに対して、後からまったく別の活用法が発見されることが多いということだ。ビッグデータのインフラとデータ管理ポリシーは、このような、収集時には思いもつかなかった新たな応用の登場に備えた柔軟性の高いものでなければならない。