Microsoftは米国時間9月28日、4月の開発者向けカンファレンス「Build 2015」で計画を発表していた「Azure Data Lake」の原動力となる3つの技術を明らかにした。Azure Data Lakeは、Microsoftが次世代におけるエンタープライズ規模のクラウドデータリポジトリとして位置付けているサービスだ。
28日の発表によると、近く提供予定のAzure Data Lakeサービスの技術的基盤は、ビッグデータのストレージおよび分析を目的として同社が社内で使用している「Cosmos」サービスの一部をベースにしている。
「クラウドにおけるビッグデータの分析に向けたハイパースケールリポジトリ」と同社が称するAzure Data Lakeで、HortonworksのHDFS(Hadoop Distributed File System)との互換性が提供されるという情報は4月時点で明らかになっていた。その際、同社はAzure Data Lakeストアのプレビューへの参加を希望する企業に対して、通知サービスに登録するよう呼びかけていた。
筆者は1月に複数の情報筋から、MicrosoftがAzure Data Lakeの主要コンポーネントとなるものを非公開でテストしているという話を聞いていた。これらのコンポーネントには「Kona」という開発コード名の分析エンジンや、「Cabo」という開発コード名のストレージエンジン、そして「SQL-IP」というSQLフレンドリーな新言語が含まれているとのことだった。Microsoftは28日、これらを新たな名称とともに公式に発表した。それぞれの名称は「Azure Data Lake Analytics」「Azure Data Lake Store」「U-SQL」だ。
また同社は28日、Azure Data Lake AnalyticsとAzure Data Lake Storeのパブリックプレビュー版の一般提供を2015年中に開始する予定だとも述べた。
Azure Data Lakeは、Azure上で「Apache Hadoop」を動作させるWindowsおよびLinux向けのサービス「Azure HDInsight」と連携することになる(Ubuntu上で動作するLinux版のHDInsightは28日から一般提供が開始された。なお、Windows版は2013年から一般提供されている)。
Microsoftのデータプラットフォーム部門のコーポレートバイスプレジデントであるT.K. "Ranga" Rengarajan氏によると、Azure Data LakeにおけるMicrosoftの包括的な目標は、顧客が「あらゆる場所に存在するすべてのデータから最大限の洞察を引き出せるようにすること」だという。