6.データセンターを単純化する
ビッグデータには並列処理計算クラスタと、従来のITトランザクションシステムやデータウェアハウスシステムとは異なるシステム管理のスタイルが必要となる。これは、それらの新システムを動かすために必要なエネルギー消費、冷却、ソフトウェア、ハードウェア、システム関連スキルも、また異なってくるということを意味している。
7.データ品質の向上
従来のトランザクションシステムは、データのフィールド長が固定長であり、データの編集や検証を行う方法も充実しているため、比較的データがクリーニングしやすいという点で非常に優れている。構造化されておらず、どんな形式のものもあり得るビッグデータでは、そうはいかない。そのため、ビッグデータの品質は大きな頭痛の種になっている。データの品質は極めて重要であり、これを確保できなければ、データに対するクエリの結果を信頼できない。
8.現在使っているROI指標の流用
従来の基幹システムの投資利益率を測るもっとも一般的な方法は、トランザクションの処理速度を計測して、得られた利益に対してどう貢献したかを外挿するというやり方だ(例えば、1分当たりいくつのホテル予約を受け付けられるか、など)。しかし、大容量のデータをかみ砕き、分析を行うのに何時間も、時には何日もかかることがあるビッグデータの処理を評価するには、トランザクションの処理速度を用いるのは適切ではない。ビッグデータの処理の有効性を測るもっとも適切な指標は利用率だろう。これは、通常90%以上であるべきだ(これに対しトランザクションシステムは、利用率が20%ということも珍しくない)。最高財務責任者(CFO)やその他のビジネスリーダーにビッグデータに対する投資の有効性について説明する必要があることを考えれば、ビッグデータを評価するために新たなROIの指標を開発することは重要だ。
9.「ノイズ」を減らす
ビッグデータの95%は、ビジネスインテリジェンスにほとんど、あるいはまったく意味のない「ノイズ」だ。このデータをふるいにかけて、実際にビジネスの役に立つインテリジェンスのかけらにたどり着くのは、手強い仕事だ。
10.常に役に立つ
以前から大学や研究所は、ゲノム研究や薬学研究、他の惑星に生命が存在するかなどの問題対してビッグデータを使用した実験を行ってきたが、とらえどころのない結果しか得られないことも多かった。これらのアルゴリズムやクエリの中には結果を出したものもあるが、はっきりした結論が出なかったものの方が多い。大学や研究機関では結論が得られないことも許容されるが、企業では許されない。IT部門やその他の主な意思決定者は、このことをわきまえておく必要がある。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。