トラックからのデータには、トラックの位置(GPSによる追跡)や燃料の消費量、メンテナンスの履歴、購入時の価格、保険の記録、送り届けた荷物の数、運転手の名前といったものが含まれる。ではここで、これらの大まかな分野ごとに、データに対する観点がすべて違っているという点に目を向けてほしい。例えば、メンテナンスの履歴にはオイルやタイヤ、バッテリをはじめとする交換可能なすべての部品、そして損傷や走行距離といったさまざまな情報が含まれる。データに対するこうした観点と、UPSで現在運用されている大量のトラックの数を掛け合わせてみてほしい。ちなみにトラックの台数は9万6394台だ。
次にトラックのデータに、従業員に関して考えられるすべての情報を加味してほしい。トラックの運転手や、トラックの荷積み担当者、トラックの荷下ろし担当者、メンテナンス要員、従業員の健康管理担当者、休暇の管理担当者、機器の管理担当者、作業服の管理担当者といった、ありとあらゆる従業員に関連する観点のデータを考慮するのである。ちなみに従業員の数は39万7100人だ。
さらに3つ目の情報源、すなわち荷物を考慮してほしい。荷物の重量、発送元、保険、配達先、配達方法、寸法、受け渡し情報、発送元から配達先までの中継地点などが考えられるはずだ。ちなみに荷物の数は1日当たり1630万個である。
UPSが取り扱うデータの量が増えるとともに、データに対する観点も急激に増加することが分かるはずだ。UPSは多くの興味深いデータをさまざまな観点で収集し、その統計を公開している。これらは生データではない。統計は分析の結果なのである。こういった値を算出するために必要となるデータベースサーバの数や、ストレージの量、エネルギーのコストについても考えてみてほしい。
これがビッグデータなのだ。データの収集や、格納、分析、整理、削除、利用が必要となる。そして収集から利用、削除に至るまでのプロセスが、ビッグデータにおける大いなる未知となっているのである。ビッグデータは複雑で管理が難しいというのも納得のいく話だろう。