この取り組みはHDInsightがフルセットのHadoopディストリビューションに成長する後押しになり、一般的なHadoopの用途だけでなく、「Apache HBase」や「Apache Storm」、「Apache Spark」を使った特定の機能を持つクラスタタイプも提供できるようになった。米国時間11月第3週に発表されたばかりだが、ストリーミングデータ指向の「Apache Kafka」を使った新しいクラスタタイプのパブリックプレビューも公開されている。
Microsoftが、統計処理や機械学習に使われるオープンソースプログラミング言語「R言語」の中核的商業ベンダーであるRevolution Analyticsを買収したこともよかった。Revolution Analyticsの製品「Revolution R Enterprise」(現在は「Microsoft R Server」という名称で販売されている)は、ローカルで使用しているスタンドアロンのPCやMacで実行する以外にも、単一サーバでも、クラスタ規模でも、分散型のIn-Databaseモードで実行できるところに特徴がある。
SQL Server 2016には、SQL Serverの「R Services」の形で、R Serverのテクノロジが統合されている。これはLinux版SQL Serverではまだ利用できないが、別の統合の仕組みである「R Server for HDInsight」はLinuxベースだ。R Server for HDInsightはApache Sparkと統合されており、HDInsight上で動作する。この製品のプレビューはかなり前から公開されており、11月第3週に一般提供がスタートされた。
正式版では「Spark 2.0」が使用できるようになり、「Apache Hive」に保管されたデータや、HDFSに「Parquet」形式で保管されたデータに直接アクセスすることが可能で、MicrosoftのHDFS互換ストレージサービスである「Azure Data Lake Store」(ADLS)のデータにもアクセスできる。
データレイク、その他
後者は、「Azure Blob Storage」をベースにしているが、さらに堅牢な耐故障性を持ち、ファイルサイズにも制限はない。ADLSや、ADLSと連携して動作するクエリサービス「Azure Data Lake Analytics」(ADLA)はすでに一般提供が始まっている。ADLSとADLAの組み合わせを使えば、Microsoft .NetやC#を使って拡張可能なSQLに似たクエリ言語である「U-SQL」を使用してビッグデータの処理を行うことができる。それに加え、ADLAのジョブは専用のクラスタを必要とせず、オンデマンドで実行されるため、ADLAが実行されるHadoopにPaaS(サービスとしてのプラットフォーム)」の使用感をもたらす。
発表された情報はこれくらいだが、これでも十分に多い。リレーショナルデータベースのSQL Serverや、R、Hadoop、Spark、Kafka、そしてそれらのさまざまな組み合わせを、WindowsとLinuxの両方で使用できるようになることは、Microsoftがビッグデータとアナリティクスに本気で取り組んでいることを示している。これに「Cognitive Services」や「Power BI」を加えれば、Microsoftは統合された、オープンで、クロスプラットフォームの、非常に幅広い、侮りがたいビッグデータテクノロジーを持っていることになる。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。