「全量のデータを解析する“ビッグデータ”は効率が悪い」
ここにきて、IT専門メディア以外でも話題にするようになってきたビッグデータ分析だが、1つ多くの人が指摘する事柄がある。
売り上げや在庫といった従来型のトランザクションデータだけでなく、ソーシャルメディアの書き込みなどを分析し、未来の売れ筋商品や在庫リスク要因などを予測するといった使い方がビッグデータに期待されている。
ここで、従来型の統計手法で実施していたサンプリングの手法と比較されるのである。対象範囲の全量データを集めて分析するビッグデータ解析よりも、無作為抽出などの手法でサンプルを集め、全体の構成内容を推理するサンプリング調査の方が、コストや手間がかからずに済むという指摘だ。
これについては、リクルート住まいカンパニーのデータサイエンティスト、吉永恵一氏も、ZDNet Japanの連載記事「“ビッグデータ分析”は本当に必要か?」で指摘している。
「誤差」を一定の数値に抑えていれば、サンプリング調査でも十分真実にたどり着けるからだ。記事の中で、吉永氏は「この誤差が50%や60%だとすると意思決定に用いられないが、1%や5%だったらどうだろう」と問い掛けた。
「ビッグデータ対サンプリング調査」というこの対決について、他の記者や、ビッグデータビジネスを推進したい側であるIT企業の人にも意見を聞いてみたが、議論はあれど指摘自体は正しいという声が多い。
SAPジャパンのビジネスソリューション統括本部リアルタイムプラットフォーム部シニアマネージャー、大本修嗣氏
一方で、現実のビジネスへの影響という意味では、少し異なる切り口の考えもある。
SAPジャパンで企業システムのリアルタイム化を支援しているというシニアマネジャー、大本修嗣氏は「企業の情報システムの作り方に発想の転換が起きている」と指摘する。
ある小売業では、実店舗とオンラインの店舗環境を完全に同期し、販売や在庫データを扱う裏のシステムと連携している。店舗やオンラインのさまざまな場所から、リアルタイムに大量のデータが集まっており、それを高速さを売りにするインメモリデータベース「HANA」で分析。すばやい納期回答の提示などにより顧客満足度を上げたり、在庫水準の適正化を実現しているという。
驚くのは、ここでは「因果関係は無視。事実をもとに動くだけ」(大本氏)という発想になっているということだ。例えば、東京23区のスーパーマーケットでステーキ用の肉と白ワインの組み合わせが突然売れ始めた、といった現象が大量データをリアルタイム解析した結果として分かった場合、小売店はすぐに両商品を拡充したり、組み合わせによる店頭プロモーションを打ったりできる。「牛肉には赤ワイン」という定説のようなものも無視だ。「売れた」という結果が分かってしまえば、そのプロセス――需要の予測やそれを成立させるための論理――は考えなくていいということになる。
従来は、このプロセスこそ、ITの担当領域だった。販売、在庫、競合関係、天気予報などのデータをバッチ処理で集め、高度な分析エンジンが処理し、未来の数字を統計的な観点から予測するといった方法だ。
サンプリングについて回る疑い

しかし、大本氏は「サンプリングで出した結果には“本当に合っているのか”という疑いが常について回る」と指摘する。「サンプル数は十分なのか、その分析モデルは正しいのかなどの議論が始まってしまう」というのだ。そうなると業務効率は落ちる。
「(全量を分析する)ビッグデータは事実と結果だけで意味ができている」と同氏。それができる技術的な基盤がこの2、3年で急速に整備されたのも事実だ。「従来5時間掛かっていたものが1時間になったのではやり方は変わらない。だが、5分になったとなれば発想自体が変わってくる」という。
センサ、モバイル、通信環境、インメモリデータベースの高速性などの要素技術がそろった今、「現実を基にアクションを起こす」というリアルタイムへの発想の転換は既に起き始めている。リアルタイムのデータ解析結果を見ながら、随時商品の発注量を再計算して最新の値を利用する、といったやり方が現実に採用されているのである。
サプライチェーンマネジメントのシステムなどを考える時、需要予測や生産計画、需給管理といったシステム構成を、バッチ処理などを前提とした従来型の考え方のみでイメージしてしまうと、端的に言えば、競争に負けるシステムが出来上がってしまうかもしれない。
もちろん、全量解析が基本のビッグデータ分析が、効率性などにおいてメリットがないと判断されるようになるかもしれない。ビジネス要件とシステム面のリソースとの兼ね合いもあるため、IT部門を中心に技術トレンドを把握し、正確な判断をしていく必要がありそうだ。