データプラットフォーム企業にとって、Amazonは究極の味方であると同時に、究極の敵だ。クラウド市場で存在感を示そうとすれば、「Amazon Web Services」(AWS)を避けて通ることは難しい。このため、Hadoop企業がAWSとの(そして「Microsoft Azure」とも)連携関係を築く事例が増えているのは不思議ではない。
Hortonworksの場合、顧客の約4分の1は、ワークロードの一部、あるいは全部をクラウド上で実行している。これまで同社の主なクラウドサービスは、Azure上で提供しているビッグデータサービス「HDInsight」のHadoopエンジンだった。
今回Hortonworksは、「AWS Markeplace」を通じて提供され、「S3」のストレージと「EC2」のコンピューティングサービスを使用してネイティブに実行できる新しいサービスをリリースし、AWSでの戦いに参戦している。この「Hortonworks Data Cloud(HDCloud)for AWS」と呼ばれるサービスは、Hadoop、「Spark」、「Hive」のワークロードを処理するよう設計されている。
Hadoop製品を提供する企業にとって問題なのは、AWS上でAmazonが提供しているサービス「Amazon Elastic MapReduce(EMR)」が、ネイティブで非常にシームレスなサービスを提供していることだ。EMRはマネージド型のサービスであり、ユーザーがEC2ノードの種類と量を選択するだけで、自動的にプロビジョニングが行われる。これに対し、AWSが裸のIaaS(サービスとしてのインフラストラクチャ)の状態で、Hortonworks(またはCloudera)のプラットフォームを動かす場合、クラウドインフラのプロビジョニングやワークロードの管理などの作業は、顧客が自ら行う必要がある。プロビジョニングを自動化してくれる「Hortonworks Cloudbreak」や「Cloudera Director」を利用しても、使いやすさの点ではホームグラウンドで戦うEMRには敵わず、しかもEMRはAWSの標準ストレージであるS3ではなくHDFSを使用している。
HDCloudが狙っているのはここだ。「AWS Marketplace」を通じて提供されるHDCloudは、EMRに近いマネージド型の使い勝手を提供し、やはりEMRと同じく、HortonworksではなくAmazonに料金を支払うようになっている(当然、HortonworksはAmazonからロイヤルティを得ているはずだ)。HDCloudはS3を使用するため、標準的なAWSサービスのように見える。
Hortonworksが新たにAWSで提供するHDCloud for AWSは、もっとも一般的なワークロードである、アナリティクスや機械学習に使用されるSparkや、インタラクティブSQLに使われる(LLAPで高速化された)Hiveにしか対応していないという意味で、「Hortonworks Data Platform」(HDP)の完全な実装とは言えない。
このため、HDCloudはHDInsightのAWS版とは言えないものになっている。これに対し、HDInsightはより幅が広いサービスで、Hortonworks Data Platformの完全なエディションに近いサービスだと言える。HDInsightでは、SparkとHive以外に「Storm」と「HBase」も実行できる。さらに、HDInsightはHDCloudよりもマネージド化の水準が高く、すべてのアップグレードはAzure側で処理されるのに対し、AWSではHDInsightよりも手動で行う必要のある作業が多い。
