Variety:非構造化データからの情報抽出に注視
Varietyは、これまでより多様なデータを扱うことを指しており、ビッグデータというトピックの中で、最も象徴的に語られる。すなわち、構造定義に沿って形作られ、データベースに格納し活用する「構造化データ」だけでなく、文書、画像、音声、イメージ、動画、グラフ形式データ、センサーデータなどの「非構造化データ」も取り扱えるようになった。
このVarietyという観点、非構造化データについては、ビッグデータが語られる中で、必ず触れられるにも関わらず、意義や今後の展望が示されていることは少ない。重要なことは、非構造化データから価値ある情報を引き出せるようになりつつあり、それを基にした企業活動がなされるようになるということである。
「Twitter上でのつぶやきを分析して消費者の動向を探る」というような例がよく挙げられる。だが、そういったテキストデータだけでなく、画像、音声、動画などの非構造化データからも、様々な情報を抽出し、新しい示唆を得ていくことになる。現在、この分野は発展途上の段階にあると言っていいが、積極的な研究・開発が進められており、今後、企業活動、特にその質の面で大きな変化をもたらすことになる。
例えば、コンビニストアでは、これまでは、店員さんが買い物客の性別や年齢をレジに打ち込んでマーケティングに利用していたが、顔認識センサーモジュールをレジ(POS)に組み込み、性別や年齢を推測して、売り上げデータと連動して管理し始めている。今後、さらにそういったセンサー技術によって買い物客の声、表情、行動などを記録・分析し、マーケティングやプロモーションのほか、多方面に活用していくことになるだろう。
企業経営の観点からは、こうした技術内容を熟知している必要はないものの、非構造化データから何がどの程度得られるのかを注視しながら、自社の情報資源戦略を考えていく必要がある。