定義から改めて考える--ビッグデータのいまとこれから(前編)

五味明子 2015年03月03日 17時05分

  • このエントリーをはてなブックマークに追加

 “ビッグデータ”という単語がバズワードとしてIT業界を席巻し始めたのは2011年ごろだったように記憶している。当時はまだビッグデータといえば、「RDBで処理することが難しい、数テラバイトを超える大量の非構造化データ、HadoopやNoSQLで処理するデータ」というイメージが強かった。

 だが、2015年の現在では、そうした見方をする人は少ない。もちろんHadoopやNoSQLはビッグデータの重要な技術ではあるが、それはビッグデータを支える一面に過ぎず、現在では、たとえば企業の基幹システムに溜めこまれたRDBデータをも指して“ビッグデータ”と呼ぶことすらある。ここでは2015年におけるビッグデータという言葉の定義を改めて見直してみたい。

ビッグデータの“3つのV”

 まず、ビッグデータの基本として覚えておきたいのが“3つのV”だ。これはVolume(データの量が多い)、Variety(データの種類が多い)、Velocity(データの変化するスピードが速い)のことで、ビッグデータという言葉が出てきたときはまずこの3つの特性を備えているかどうかをチェックしたい。

 なぜ、この3つがビッグデータを語るときに重要なのか。それはビッグデータという言葉の共通定義がいまだに定まっていないことにも関係する。

 ビッグデータは「いままでのITの常識では考えられないほどの量、種類、スピードであるため、既存のシステム(RDBやDWHなど)では扱うことが困難」なデータだからこそ生まれてきた概念といえる。つまり、既存のITのキャパシティを超えるデータが日々生成されているがゆえに、そのデータを扱う仕組みの基本仕様が固まっていないのだ。

 言うなれば、未知なるデータの世界に対する総称を“ビッグデータ”としている感すらある。“3つのV”はそんな未知の世界に入り込もうとするわれわれの数少ない指針だといえよう。

 では、そもそもなぜ「扱うことが困難」になるほどのVolume、大量のデータが生成されているのか。ある統計によれば、世界のデータの90%はこの2年間に生まれたものだとされている。いまこの瞬間にも世界の至るところでデータが生まれており、そのスピードは加速する一方だ。

 そうした大量のデータ生成を可能にしているのがクラウド、モバイル、ソーシャル、“モノのインターネット(Internet of Things:IoT)”といった21世紀のITを牽引するトレンドであり、ビッグデータはこれらのトレンドと密接に絡みあって成長してきた。クラウドは“データのゆりかご”として膨大なデータを抱える場所となり、モバイルやソーシャルはデータの生成される場所と頻度を増やした。センサデータ中心のIoTはそうした流れの延長線上で現在、大きく発展しつつある。

 また、既存の大量データとビッグデータの違いを際立たせているのがVariety、すなわち「データの多様性」だ。会計システムなどの基幹システムや顧客データなどRDBに保存される構造化データは文字列や数値だけで構成されているが、ビッグデータでは画像や動画、テキスト、PDF、音声、メール、ログ、XMLなどの非構造化データや半構造化データも含む。こうしたデータを大量に蓄積し、さらに迅速に処理していくには、従来のRDBやDWHといったテクノロジだけでは難しくなっているのが現状だ。

 Velocity、データ更新の頻度の高さもまた、既存のシステムでは扱いにくい特性だといえる。たとえば売上報告も、いまや月次や週次ではなく日次で求められる時代だ。非構造化データをリアルタイムに分析したいというニーズはここ数年、世界的に高まっており、システムにもそうした機能が求められるのは当然の流れともいうことができる。

 もっとも現在では、冒頭でも触れた通り、非構造化データや半構造化データだけではなく、従来から企業に存在する構造化データも“ビッグデータ”としてみなされることが多い。これはデータをディスク上ではなくメモリ上で高速処理するインメモリ技術の飛躍的な成長などの影響も大きいが、構造化か非構造化に関係なく、ビジネス活用の幅を拡げることにつながるあらゆるデータを“ビッグデータ”と呼ぶ傾向にあるといえる。構造化データもVarietyの示す“多様なデータ”のひとつというわけだ。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

この記事を読んだ方に

連載

CIO
IT部門の苦悩
Rethink Internet:インターネット再考
インシデントをもたらすヒューマンエラー
トランザクションの今昔物語
エリック松永のデジタルIQ道場
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
「企業セキュリティの歩き方」
「サイバーセキュリティ未来考」
「ネットワークセキュリティの要諦」
「セキュリティの論点」
スペシャル
ざっくりわかるSNSマーケティング入門
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
Microsoft Connect()
HPE Discover
Oracle OpenWorld
Dell EMC World
AWS re:Invent
AWS Summit
PTC LiveWorx
より賢く活用するためのOSS最新動向
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
米株式動向
日本株展望
企業決算
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]