この背景にある話として、クラウド市場の顧客は、完全なプラットフォームよりも、自分たちの目的に合った製品を求めることが多くなってきている。このため、あらゆる大手クラウドプロバイダーで、少数のモデリングアルゴリズムへのアクセスを提供する、特化した用途を持つ機械学習サービスが出てきている。Databricksのように、Sparkだけを提供するサービスが登場しているのも同じ理由だ。この傾向は、Spark対Hadoopの議論が白熱している原因でもある。HDPとHDInsightは、すでにSparkを完全にサポートしているが、HortonworksがHDCloudの狙いを絞ったことには、短時間のワークロードに特化したクラウドサービスに対する需要が高まっているという背景がある。
AWSに視点を戻したときに出てくる大きな疑問は、EMRではなくHDCloudを使うべき理由はどこにあるのか、ということだろう。Hortonworksは、Ambariから拝借したコンピュートノードの設定を最適化する機能を利用して、HiveとSparkのワークロードに最適化することによって、EMRとの差別化を図っている。Hortonworksはまた、Hiveで行や列単位でのより細かいセキュリティを提供する機能を売りにしている。
またEMRは、データアクセスを最適化する独自の機能を売りにしてきたが、最近「Apache Hadoop 2.7」で導入された機能強化を利用することで、HDCloudでS3を利用する際の性能はEMRに匹敵する水準になった。
HDCloudのサービス開始時点では、課金は年間契約か1時間単位となる。ただし、既存技術である「Cloudbreak」(その一部は新しいAWSのサービスでも利用されている)を使用すれば、スポットインスタンスの利用が可能なため、HDCloudにも将来スポット料金が設定される可能性が高い。また、「for AWS」という名前にも注意が必要だ。この名前から考えると、今後他のパブリッククラウドサービスでも、HDCloudのサービスが提供されても不思議ではない。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。