300億ツイートの分析から見えてきたもの
喜連川氏が研究者としてのテーマにしている「巨大データベースエンジン」が以前にも増して注目されるのは、昨今のビッグデータブームが影響していることは間違いない。
しかし、ビッグデータといっても喜連川氏がFIRSTでの成果をベンチマークにかけたデータの大きさは、100Tバイトである。
日立製作所によれば、大手コンビニエンスストアの販売時点情報管理(POS)データ7年分になるという。しかも喜連川氏にとって従来の100倍の性能を記録したことは通過点で、目標はあくまで1000倍の性能だ。一般の企業が扱うビッグデータとはケタが違うし、目指す結果がかなり遠いところにあることは間違いない。
100倍ではなく、なぜ1000倍なのか。喜連川氏はNIIの機関誌などで「1000倍になれば世界が違ってくる」と語っている。未到達の1000倍の世界を考える上で、氏の研究室では、東日本大震災の発生直後からのツイートを集め、時系列で追いかけていた。
量にして300億ツイート。これらのつぶやきが震災発生からどのようにして生成され拡散し、消滅してはまたうまれていったのかを追跡、分析していったのだ。
「ツイートはブログなどでの発言と違い、瞬間に感じたことがテキストになって現れてきます。地震発生直後には、阪神淡路大震災や過去の大きな災害を被災経験者が、具体的なアドバイスをつぶやいたり、避難所情報を独自に集めてGoogleMapsに貼り付けて提供している人が現れ、それをフォロワーの多い人が拡散させるなどの行動が見られる。また、時系列の流れだけでなく、テキストを選択して分析することで『いま、何が必要なのか』が分かってくるのです」
「いま、何が必要か」は例えば、不足という単語を選んで分析することで見えてくる。不足という単語と同時に使われる名詞を順に選んでいくと、最新のウィッシュリストができあがるわけだ。
この分析作業は、震災発生から3カ月後に完了したという。FIRSTで開発されたデータベースエンジンではないが、別途開発していた高速エンジンだったという。
つまり、100倍といったレベルでなく従来のデータベースエンジンの1000倍の性能を持ったソフトウェアが実用化されれば、反射的にわき出してくる数多くのつぶやきから、ものすごいスピードでさまざまなニーズを分析できるようになり、有効な手立てが素早く打てることになる。
「高速データベースだけで、何もかもが変わるということではありません。しかし、これまでにない変化をもたらす基盤になることは間違いない」
現在、多くの企業がビッグデータの活用を目指してさまざまなに取り組んでいる。その中でビッグデータというものに対する解釈の仕方も変わってきている。ビッグデータは過去にさかのぼって蓄積された膨大なデータというよりも、リアルタイムに発生するものだという見方だ。
ツイートのように一瞬のうちに爆発的に発生し、時間ごとに変化していくデータの蓄積。そうした膨大なデータを素早く解析することが、ビジネスや公共サービスにおいて、大きな変革をもたらす可能性を秘めている。