“ビッグデータ”という単語がバズワードとしてIT業界を席巻し始めたのは2011年ごろだったように記憶している。当時はまだビッグデータといえば、「RDBで処理することが難しい、数テラバイトを超える大量の非構造化データ、HadoopやNoSQLで処理するデータ」というイメージが強かった。
だが、2015年の現在では、そうした見方をする人は少ない。もちろんHadoopやNoSQLはビッグデータの重要な技術ではあるが、それはビッグデータを支える一面に過ぎず、現在では、たとえば企業の基幹システムに溜めこまれたRDBデータをも指して“ビッグデータ”と呼ぶことすらある。ここでは2015年におけるビッグデータという言葉の定義を改めて見直してみたい。
ビッグデータの“3つのV”
まず、ビッグデータの基本として覚えておきたいのが“3つのV”だ。これはVolume(データの量が多い)、Variety(データの種類が多い)、Velocity(データの変化するスピードが速い)のことで、ビッグデータという言葉が出てきたときはまずこの3つの特性を備えているかどうかをチェックしたい。
なぜ、この3つがビッグデータを語るときに重要なのか。それはビッグデータという言葉の共通定義がいまだに定まっていないことにも関係する。
ビッグデータは「いままでのITの常識では考えられないほどの量、種類、スピードであるため、既存のシステム(RDBやDWHなど)では扱うことが困難」なデータだからこそ生まれてきた概念といえる。つまり、既存のITのキャパシティを超えるデータが日々生成されているがゆえに、そのデータを扱う仕組みの基本仕様が固まっていないのだ。
言うなれば、未知なるデータの世界に対する総称を“ビッグデータ”としている感すらある。“3つのV”はそんな未知の世界に入り込もうとするわれわれの数少ない指針だといえよう。
では、そもそもなぜ「扱うことが困難」になるほどのVolume、大量のデータが生成されているのか。ある統計によれば、世界のデータの90%はこの2年間に生まれたものだとされている。いまこの瞬間にも世界の至るところでデータが生まれており、そのスピードは加速する一方だ。
そうした大量のデータ生成を可能にしているのがクラウド、モバイル、ソーシャル、“モノのインターネット(Internet of Things:IoT)”といった21世紀のITを牽引するトレンドであり、ビッグデータはこれらのトレンドと密接に絡みあって成長してきた。クラウドは“データのゆりかご”として膨大なデータを抱える場所となり、モバイルやソーシャルはデータの生成される場所と頻度を増やした。センサデータ中心のIoTはそうした流れの延長線上で現在、大きく発展しつつある。
また、既存の大量データとビッグデータの違いを際立たせているのがVariety、すなわち「データの多様性」だ。会計システムなどの基幹システムや顧客データなどRDBに保存される構造化データは文字列や数値だけで構成されているが、ビッグデータでは画像や動画、テキスト、PDF、音声、メール、ログ、XMLなどの非構造化データや半構造化データも含む。こうしたデータを大量に蓄積し、さらに迅速に処理していくには、従来のRDBやDWHといったテクノロジだけでは難しくなっているのが現状だ。
Velocity、データ更新の頻度の高さもまた、既存のシステムでは扱いにくい特性だといえる。たとえば売上報告も、いまや月次や週次ではなく日次で求められる時代だ。非構造化データをリアルタイムに分析したいというニーズはここ数年、世界的に高まっており、システムにもそうした機能が求められるのは当然の流れともいうことができる。
もっとも現在では、冒頭でも触れた通り、非構造化データや半構造化データだけではなく、従来から企業に存在する構造化データも“ビッグデータ”としてみなされることが多い。これはデータをディスク上ではなくメモリ上で高速処理するインメモリ技術の飛躍的な成長などの影響も大きいが、構造化か非構造化に関係なく、ビジネス活用の幅を拡げることにつながるあらゆるデータを“ビッグデータ”と呼ぶ傾向にあるといえる。構造化データもVarietyの示す“多様なデータ”のひとつというわけだ。