実際、Sparkユーザーの95%がプロジェクトでSQLも利用しているというZaharia氏の指摘は重要だろう。これは「Spark SQL」が重要であることを意味していると同時に、Sparkの持つアナリティクス関連の幅広い機能やインメモリ処理性能は魅力的だとは言え、アナリティクスの全体像から見れば、その一部分にすぎないということでもある。Sparkを使用している開発者やデータサイエンティスト、データエンジニアは、平凡なデータベースサービスや「HIVE」から、GPUを使用した高性能コンピューティングインフラなどの最新技術まで、Spark以外にもさまざまな技術も使用している。
Sparkには影響力があり、導入事例も多く、広くサポートされ、広く利用できるが、企業はコストや遅延、開発しやすさ、使いやすさ、技術の成熟度などさまざまな要件を持っており、どんな場合にもSparkが最適だとは限らない。少なくとも、Spark Summitのあるプレゼンテーションは、「Spark Streaming」が次世代の連続的アプリケーションすべてを担う万能薬だと考えるべきではないと参加者に思わせるものだった。
とは言え、開発が始まってからの期間で見れば、今日のSparkが2010年頃のHadoopと同時期にあたることを考えれば、SparkがHadoopよりも早いペースで進歩しており、過去の革新的プラットフォームよりも、開発者やデータサイエンティストに幅広く利用される可能性が高いことは確かだろう。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。