2012年後半から「ビッグデータ」というキーワードが日本社会に浸透しつつある。経済誌でもビッグデータに関する記事が掲載され、テレビのニュースでも取り上げられた。ある雑誌では「2013年はビッグデータ競争元年」とする特集を組んだ。
ZDNet Japanでは、2011年8月から特集「ビッグデータとは何か--課題と機会、ベンダーの戦略」を掲載。それに先立つ2010年10月に初めてビッグデータに関する記事を掲載している。この記事は、データウェアハウス専業の米Teradataのユーザー企業が主催するイベントの基調講演に関するものだった。
ビッグデータを解析することで、従来は気付けなかった傾向や法則を明らかにし、マーケティングや経済、医療、セキュリティなど多彩な分野で活用できるが「ビッグデータは万能」という風潮もある。
各界のエグゼクティブに価値創造のヒントを聞く連載「ZDNet Japan トップインタビュー」。今回は、Teradataで最高技術責任者(CTO)を務めているStephen Brobst氏にビッグデータをどう見ているのか、話を聞いた。
ビッグデータは3つの段階に分けられる
――現在、ビッグデータは一般の企業ではどうとらえられているのか。すべて解決できるという勘違いもあるのではないか。
Brobst ビッグデータへの誤解は、確かにたくさんあると思います。“ビッグ”という言葉が“量”を連想することから来る誤解だとは思うのですが、これはあまりよくないことです。確かに量も重要ですが、それよりも“多様性”が重要なのです。
もうひとつの混乱は、「ビッグデータ=テクノロジ」と思われていることです。もちろん、(分散並列処理フレームワークの)「Hadoop」などのビッグデータに関連する興味深いテクノロジはあります。しかし現在、ビッグデータはデータそのものなのです。
ビッグデータの活用は、3つの段階に分けられると考えています。第1段階はウェブログデータが対象で、主にドットコム企業がこれらのデータを解析していました。特に、トランザクションデータの部分に焦点を当てていたのです。しかしビッグデータの到来によって、トランザクションよりもう一段階詳細なレベルであるインタラクションデータ、つまり、やり取りされるデータの中身が解析されるようになりました。
第2段階は、解析の対象がソーシャルメディアに移ってきました。FacebookやTwitter、ブログなどに書かれるテキストを対象としたものです。現在はこの第2段階にあります。
第3段階は、まだ幼少期にあると考えていますが、センサのデータを対象とするものです。第3段階では扱うデータが膨大になっていきます。しかし現段階では扱うデータ量も少なく、フル活用されていない状況です。
ビッグデータで「すべてが解決できる」というのは誤解です。これはベンダーの責任だと思っています。すべてがビッグデータという風潮になっていて、中にはビッグデータとは全然関係ない製品を、中身を変えずに名前だけを変えてビッグデータと謳う製品もあります。
あるベンダーを例に挙げますと、カラムベースのデータベースで圧縮率もよく、しっかりエンジニアリングされた非常にいい製品なのですが、ビッグデータという言葉の入った製品名に変わりました。しかし、実際にはRDB(リレーショナルデータベース)のみを対象とする製品なのです。ビッグデータの意味を取り違えている好例と言えるでしょう。
あるいは、インメモリデータベースの技術を持つ製品もビッグデータと呼んでいます。ビッグデータとインメモリをひとつにして語るようなベンダーは勘違いしていると言わざるを得ません。私がビッグデータと断言できるのは、ERP(統合基幹業務システム)以上のデータを解析できる製品です。
――第3段階では、センサデータやM2M、モノのインターネット(Internet of Thing:IoT)、複合イベント処理(CEP)などが関わってくると思うが、それとアナリティクスを組み合わせるということか。
Brobst それぞれがアプリケーションということになります。ほかにもたくさんアプリケーションがあります。Teradataでは、長らくアクティブデータウェアハウス(ADW)を支持してきました。これは、データを常に連続的に分析されるところにフィードしていきます。私たちはこれを“ニアリアルタイム”と呼んでいます。