ビッグデータについて耳にする機会は多いものの、それが持つ本当の意味を理解している人はいるのだろうか?簡単な答えは「イエス」であるが、その数はそう多くない。では、ビッグデータの理解を難しくしている原因は、一体何なのだろうか?
ビッグデータの理解が難しいのはひとえに、われわれテクノロジ関係者らがビッグデータや、その管理について準備できていなかったためである。「いや準備はできていた」という反論が返ってくるかもしれない。しかし、実際には準備できていなかったのだ。その理由は次の通りである。世界中のデータのうち90%は、過去2年の間に作り出されたものだと言われている(注1)。このような、想像を超えるデータの増加が準備不足となった理由である。ソーシャルメディアサイトや、工業分野で使用されているセンサ類、人工衛星、携帯電話、写真、ドキュメントといったさまざまなソースから毎日、大量の新規データが生み出されている。毎日250京(2,500,000,000,000,000,000) バイト、すなわち20億(2,328,306,436.5)Gバイト以上のデータが増えているのである。こういったデータは(一時的にせよ)どこかに保管した後、データベースや分析用アプリケーションに送り込む必要がある。しかし、あまりにも多くのデータがどんどん積み上がっていくため、そのストレージや管理、分析に圧倒されてしまうわけである。ビッグデータを本当に理解している人がほとんどいないという理由は、ここにある。
このような大量データの存在ゆえに、ビッグデータの話がそこかしこで聞かれるうえ、その理解も難しくなるのである。筆者が過去の記事で述べているように、今までを振り返ってみた場合、データは相対的に見て格納や取得、分析、整理、アーカイブ化、削除を行うには大きすぎるのが常であったが今では、もはや企業として一貫した管理ができない状況になっている。
われわれは、これらのデータがどのようにして作り出されるのかを知っている。また大抵の場合、なぜそのようなデータを作り出しているのかも知っている。しかし、そうした大量のデータの取り扱い方法を知らないのだ。
実際のところ、われわれはビッグデータによって生み出されるメタデータの取り扱い方法すら分かっていないのである。
少し脱線するが、最近のニュースで米国家安全保障局(NSA)が捕捉、分析した個人情報に関連するメタデータの話をよく耳にしているかもしれない。メタデータとはデータに関するデータのことである。これは奇妙な概念に思えるかもしれないが、簡単に言えばメタデータはデータを説明する情報である。つまり、あなたも知らず知らずのうちに、メタデータを毎日使用しているわけだ。例えば、デジタルカメラで撮影した写真のメタデータは、サイズや日付け、場所、寸法、ピクセルといったものとなる。
その他のメタデータとして、以下のようなものもある。
- データの作成手段
- データの目的
- 作成日時
- データの作成者や著者
- データが作成されたコンピュータネットワークのロケーション
- データの作成時に使用された規約
「Windows」を使っている場合、写真のメタデータを確認するには写真ファイルを右クリックし、[プロパティ]を選択した後、[詳細]タブを選択するだけだ。