Microsoftが、「Apache Spark」ベースのアナリティクスプラットフォーム「Azure Databricks」のプレビュー版を発表した。
Azure Databricksは、「Azure Marketplace」における単なる提携サービスとしてではなく、ファーストパーティーの「Microsoft Azure」製品としてSparkベースのビッグデータ分析サービスを提供するために、MicrosoftとDatabricks(Sparkの開発元企業)によって共同開発された。またAzure Databricksは、Databricks独自のSpark向けクラウドサービスや、Microsoft独自のBDaaS(Big Data as a Service)プラットフォーム「Azure HDInsight」(Spark自体もAzure HDInsightでサポートされている)とは別に運用される。
それでもAzure Databricksは、BLOBストレージや「Data Lake Store」、仮想ネットワーク、「Azure Active Directory」「Azure Container Service」など、さまざまなAzureサービスを活用し、完全に最適化するために一から設計された。Azure Databricksはまだ、HDInsightのように、専用クラスタの生成をベースとし、ノード(サーバ)の数と種類は顧客によって決定されるが、自動スケーリングと自動ターミネーションの機能を内蔵し、必要に応じてクラスタを増やし、不要になればクラスタを停止する。
ほとんどのSpark環境と同様に、Azure Databricksは、主要なユーザーインターフェースとしてブラウザベースのノートブック機能を備える。だがAzure Databricksを実装すると、複数のユーザーが同時にノートブックを編集し、データサイエンスやデータエンジニアリングに関する作業を共同で行うことが可能になる。Microsoftによると、Azure Databricksのノートブックは、統合されたデバッグ体験を提供するほか、多くのサンプルノートブックを用意しており、ユーザーが共有データソースに接続して「Python」や「R」で機械学習の作業を行うのを支援する。さらに、「Power BI」「Azure Data Warehouse」のほか、「Cosmos DB」とも連携する。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。