十分な知識のない人のために説明すると、ビッグデータとは、処理や分析に専用のツールが必要とされる、巨大なデータセットを指す用語だ。企業がアクセス可能なデータから洞察を得るのに役立つ、データ収集メカニズムやツールが増加したことから、ビッグデータの注目度はこの数年で飛躍的に高まっている。
この分野は爆発的に拡大しているが、遅れて活用しようとする企業にとっては、その中を進んでいくことが難しい場合もある。この記事では、ビッグデータ現象をよりよく理解するために役立つ、10項目を紹介する。
ビッグデータはビッグな市場である
IDCのレポートでは、ビッグデータ市場は2017年には、複合年間成長率が27%、金額では324億ドルに達すると予測されている。このレポートはまた、「ビッグデータ」と考えることのできる多くのデータが、捨てられたり、クラウドに移行されたりすると予想しており、これは、ストレージを対象とする、従来のデータセンターの売り上げに影響を与えるだろう。
ビッグデータは煩雑である
生のままのデータは、管理するのが極めて困難なことがある。データサイエンティストは多くの場合、6つか7つの異なるソースから得られた、テラバイト、あるいはペタバイトものサイズがあるデータに取り組んでいる。個別のデータセットは、それぞれ異なる方法でフォーマットされていたり、異なる特定のデータポイントを含んでいたりする可能性がある。
Accel Partnersの投資家で、同社のビッグデータファンドを指揮しているPing Li氏は「ビッグデータは、大抵きちんとフォーマットされておらず、現在のデータサイエンティストは自分の時間の最大80%を、データのクレンジングや準備に費やしている」と述べている。
多様性は価値である
データはどこから得てもかまわない。そうは言っても、社内のソースと社外のソースの両方からデータを引き出すことは重要である。Domoの戦略ソリューションの最高責任者であるMatt Belkin氏によれば、真の価値は、複数のデータソースを重ね合わせて、そのデータセットの中から浮かび上がるストーリーを理解できることにあるという。
「切り離されたビジネスデータからは、部分的なストーリーしか得られない。ビッグデータ、あるいは大量のデータの真の価値は、異なるデータセットの関係性を見つけ出せることにある。そうした関係性からは、より説得力がある、大局的なストーリーが得られることが多く、ビジネスをより効率的に動かすことが可能になる」(Belkin氏)
データ自体に価値はない
ビッグデータ自体には、ほとんど価値がない。ビッグデータの価値は、データサイエンティストが、そのデータ自体を処理し分析することによって導出される、洞察から得られるものだ。Clouderaの最高戦略責任者(CSO)のMike Olson氏は、「われわれは、(ビッグデータを)を理解できるまで、それに基づいて行動することはできない。そして、それをクレンジング、処理、分析し、詳しく調べるまで、それを理解することはできない」と述べている。