Li氏 データ科学における新たなものを思い浮かべてください。つまり、データ科学が統計学や昔のクァントといった従来の数理計算とはどのように異なっていて、どのように拡張されてきているのかを考えてほしいのです。
われわれはもはや構造化データ、すなわちSQLクエリのみを使っているわけではありません。現在は半構造化データや非構造化データの時代です。Excelにロードしたり、SQLで書き込めるような簡潔な表のかたちにできないデータを取り扱うにはどうすればよいのでしょうか?
われわれはデータが肥大化していく世界に生きています。テレマティクスという言葉があります。道路上を走るすべての自動車から時々刻々とデータが送られてくるというケースを考えた場合、格納すべきデータは膨大な量になり、計算処理のためのパラダイムもまったく違ったものが必要となります。こういったデータの格納方法を考える必要があります。また、複数のコンピュータにまたがって格納されたデータをどのように扱えばよいのでしょうか?このようなコンテキストにおける計算処理をどう考えればよいのでしょうか?
そしてもちろんながら、リアルタイムデータというものも考える必要があります。歴史的に見るとアナリティクスは、バッチ処理と言ってもよい形態になっていました。まず実行し、レポートを作成し、結果を人々に手渡し、一連の処理が終わるのです。
現在では、これが連続的なプロセスとなっています。実行すれば、即座に最新のトレンドを導き出す必要があり、それを現場に還元して活用した後、次の1時間、あるいは次の1分でこの作業を再び繰り返すのです。ここが差別化できる部分となってくるわけです。
シリコンバレーで起こってきたことを思い起こせば、サーバがユーザーの振る舞いから絶え間なく学習し、(彼らの言葉を借りると)ユーザーを喜ばせるようなかたちでやり取りしていくように変化してきたと分かるはずです。私は同じことが起こると考えています。
IT技術をベースにしていない従来型の企業は、この種の顧客サービスや顧客満足を何とかして模倣する必要があります。その多くはビッグデータと、急速に進化している世界における新たな、そしてさまざまな種類のデータを理解できるチームを有することに行き着きます。
Buluswar氏 ヘルスケア業界や銀行業界におけるトランザクションデータについての歴史的な定義を見てみると、彼らがアナリティクスについて抱いていた考え方の核心を垣間見ることができます。保険業界は伝統的に、それとは考えを異にしています。
一歩離れたところからより幅広い視点で画像や音声、あらゆる種類の非構造化データを含むデータというものを定義すると、保険業界は独自のものを有しており、その上にIoTといったレイヤを乗せています。保険業界はトランザクションデータも独自です。そういったトランザクションデータを利用し、意思決定のサイクルタイムとともにその粒度を劇的に変える能力が、向こう5年ほどの保険業界にとっての金鉱脈となっています。
——データ科学の文化を築き上げるうえでのアドバイスをいただけませんか?
Li氏 手始めに行うべき2つの基本的なことがらがあります。1つ目はデータを取得し、収集したうえで、入手したデータを格納することです。2つ目はそのデータを取り扱える人材を見つけ出し、データを操作し、それらから行動に結びつけられる洞察を導き出すことです。これら2つのことがらを実行できれば、データ駆動の文化を築き上げるという目標に向かった最初の数歩は間違いなく踏み出せているはずです。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。