第2に、Sparkクラスタを動かした後、何をしたいのかを考えてみてください。データサイエンティストの多くは、RやPythonなどの言語を好んで使っています。しかし彼らは、データをインポートしたり、ジョブを動かしたりする方法を覚えなくてはなりません。スタンドアロンのSparkを利用するために必要な一連のツールは、そのようなユーザーにとっては難しい場合があります。分析を実行し、同僚と共同作業をする方法となれば、さらに大変です。
これは小さな問題ではありません。
第3に、クエリとモデルのテストを行ったら、本番環境に移行する必要があります。そのプロセスについて考えてみてください。多くの企業では、作成したモデルをエンジニアのチームに渡して、そのチームがそれを新しいインフラ上に再実装する作業が必要になります。
Databricksのようなクラウドプラットフォームが提供する、統合されたホスティング型のソリューションは、Sparkを導入し、ビッグデータを使った取り組みを成功させようとする際に生じるこれら3つの障害を取り除きます。顧客は、Sparkを生み出したエキスパートが管理し、チューニングしたSparkクラスタを利用することができます。Databricksのプラットフォームは、調査、視覚化、協調作業、公開などの作業を行う、対話的な空間を提供します。本番作業の準備ができたら、クリックひとつでジョブを実行することができるのです。Databricksでは、インフラは自動的に生成されます。
さらに、プラットフォームにプログラムからアクセスするための充実したAPIを提供しており、これによりサードパーティーアプリケーションとのシームレスな統合も可能になります。
--顧客がクラウドでBIの視覚化を行うことのメリットを教えてください。クラウドはBIの可視化に適しているのでしょうか。
Tavakoli氏:顧客はデータを使って、自分のビジネスに関する知見を得たいと考えています。そして、データエンジニアやデータサイエンスは、そのような知見を得ることに力を注いでいます。しかし、Pinterest、Netflix、Facebookなどのような技術指向の企業を除けば、データエンジニアやデータサインティストは、組織の中のごく一部を構成しているにすぎません。ビジネスアナリストやエンドユーザーの数の方がずっと多いのです。
例えば、データについて高いレイヤで細かく分析したいと思っているマーケティング担当者は、分析のための技術的なスキルを持っていないこともあります。そうしたユーザーは、制約が強い決定空間で、ダッシュボードか何かを使いたいだけなのです。
賢い企業は、従業員が自分自身で仕事を進めらるようにしたいと考えています。BIの視覚化の役割はここにあります。まだ、問い自体が明確に理解されていない場面で役に立つのです。問いがすでに明確になっている場合は、その分野に特化したアプリケーションを利用した方がよいでしょう。