それで、質問は彼らが前に進むための戦略はどういうものかということでしょうか。HPで働いているわけではないので、彼らのことはわかりませんが、自分がうまくいくかもしれないと思っている戦略については話せます。
数年前にわたしがAmazonで話をした人の例を考えると、データウェアハウスが単独で存在することはないと思います。彼は、現在と過去を比較したいと話していました。過去はデータウェアハウスの中にあり、現在はトランザクション処理システムの中にあります。したがって、データウェアハウスからのアップストリームは、ストリーム処理か、オペレーショナルデータシステムのどちらかであり、現在と過去を比較したいと思った途端に、データウェアハウスからのアップストリームを統合する必要があるわけです。つまり、うまくいくかも知れない戦略とは、統合する必要のあるアップストリームシステムを見つけて、それを統合することです。
もう一つのうまくいく戦略は、5000ものオペレーショナルデータシステムを持つFedExのような企業を考えることです。5000という数字は珍しくありません。Verizonなどの大手通信事業者は、1万のシステムを持っています。
このような企業では、10か20程度のオペレーショナルデータシステムのデータを対象として、従来型の抽出、変形、ロードの技術を使っています。
では、残りの4980のデータシステムはどうなるのでしょうか。これらは現在、孤立してしまっています。また、ウェブの公開データなどもあります。わたしの意見では、これらの孤立したシステムを統合したいという欲求は非常に大きいはずです。
そしてその次には、ビジネスアナリストがよりよい判断を下せるようにしたいという欲求が来ます。わたしならデータ統合技術に、特にアップストリームシステムとの統合に大きく投資するでしょう。
現在重要になっているもう1つのポイントは、このデータはビジネスアナリストがさまざまなツール(「IBM Cognos」など)を使って利用するものだということです。現在のところ、BIツールはSQLクエリを送信できる単なるGUIです。
ここで、Walmartのことを考えてみましょう。Walmartは、レジを通ったあらゆる商品を監視するシステムを持っています。昨年の冬、ボストンでは大雪が降りましたが、もしあなたがこれらの店舗の商品再補充担当者だったら、吹雪前の1週間に店舗で売れた品物と、吹雪後の1週間に売れた品物を調べるクエリを実行したいと思うでしょう。
ここで、ビジネスインテリジェンスの担当者ではなく、データサイエンティストを雇ったとしましょう。このデータサイエンティストは、何が売れるかという予測モデルを構築するはずです。よく考えてみてください。欲しいのは予測モデルでしょうか?それとも売れた商品が分かる巨大なテーブルでしょうか?
次の10年ほどで、ビジネスアナリストはデータサイエンティストに取って代わられるとわたしは思います。
現在は十分なスキルをもった人材が足らず、データサイエンティストの数が不足しているため、供給は限られています。これは徐々に改善されるでしょうから、もっと洗練された分析が行われるようになるはずです。
--よいデータサイエンティストとはどんな人材でしょうか?
データサイエンティストは統計とデータマイニングを理解している必要があるので、ビジネスアナリストを再訓練することはないでしょう。これらは大学院のカリキュラムで教えられるようになりつつあるスキルセットです。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。