DatabricksのエグゼクティブチェアマンIon Stoica氏は、Zaharia氏のストリーミング処理に関する話題を引き継ぐ形で、カリフォルニア大学バークレー校のRISELab(AMPLabの後継研究所)で進めているリアルタイムアナリティクスに関する取り組みについて詳しく説明した。同氏はSparkの新しいストリーミング実行エンジン「Apache Drizzle」による改善を示すベンチマークのグラフを紹介した。このグラフでは、DrizzleなしのSparkや、ストリーミング処理分野のライバルである「Apache Flink」が比較されている。
Stoica氏は、ストリーミング処理とバッチ処理の両方に、同じAPI、同じ実行エンジン、同じクエリ最適化手法が利用できることによる時間とコストの節約効果を強調した。基調講演終了後に同氏から聞いた話では、Drizzleは数週間以内にDatabrickが提供するクラウドベースのSpark環境で利用できるようになる可能性が高く、早ければ2017年第3四半期にApache Sparkのソフトウェアに組み込まれる見込みだという。
RISELabsが開発中のApache Drizzleは、現在のSparkやApache Flinkよりも高いストリーミングクエリ性能を実現できるという。
Databricksは、Sparkの成功を示す数字として、今回もコントリビュータ―の数と、Spark Meetupへの参加者数(Zaharia氏によれば後者は30万人を超えている)を使ったが、筆者には、そろそろ成功の度合いを大企業での導入事例数で評価すべき時期に来ているように思える。CapitalOne、Comcast、Verizon、Walmart Labsなどの導入企業による発表が、FacebookやNetflixなどのベンダーや大手インターネット企業の発表よりもずっと少なかったのを不満に感じたのは、それが理由だ。
Databricksは、同社のホスティング型Sparkサービス利用企業は500社強だと述べているが、筆者の考えでは、Sparkを導入している企業の多くは、いまやAmazonや、IBM、Google、MicrosoftなどのクラウドベースのSparkサービスを利用している可能性が高い。それらのSparkサービス提供事業者の魅力は、インフラの供給力や開発者向けのサービスが充実しており、Spark以外のものも含めて幅広い分析機能を利用できることだ。また2016年の夏には、Clouderaの幹部が、Sparkの導入事例では同社のディストリビューションが最も多く利用されていると断言していた。
Databricksの顧客エンゲージメント担当バイスプレジデントArsalan Tavakoli氏は、「アナリティクスの仮想化」に関する示唆に富んだ基調講演の中で、Hadoopベースのデータレイクについて言及し、ツールがバラバラで複雑なことや、アクセスがビッグデータ開発者に限定されているなどの欠点を挙げて、「第2世代」のソリューションだと切り捨てた。しかしTavokoli氏は、Sparkはコンピューティングとストレージを分離し、一貫したデータ管理とセキュリティを提供して、アナリティクスを統合し、多くのユーザーの間で起こる幅広い協力関係を支える「新しいパラダイム」を実現するための「解決策の一部」にすぎないことも認めている。