Apache Sparkの統合など
Apache Sparkの統合は、オープンソースのビッグデータアナリティクスフレームワークの単なる「バンドリング」というレベル以上のものとなっているようだ。例えば、Synapseクラスターがプロビジョニングされた際、(Spark SQLテーブルを格納できるという)ADLSの能力もそれに伴って必要となる(Azure Data Factoryでも同様だ)。Spark SQLテーブルはSQL ServerベースのTransact SQL(T-SQL)言語から、CREATE EXTERNAL TABLEのような明示的なコマンドを事前に必要とすることなく、即座にクエリーを実行できる。これらのクエリーと連携するエンジンは、「Apache Parquet」形式で格納されているデータファイルとネイティブなかたちで統合できるということだ。
こうした機能は、Amazon Web Services(AWS)が提供する、「Amazon Simple Storage Service」(Amazon S3)に格納されたデータに対するSQLクエリーを可能にする「Amazon Athena」サービスと接戦を繰り広げるものとなるだろう。さらにこういった能力に加えて、Azure Synapse studioはPythonやScala、ネイティブなSpark SQLのコードブロックを開発/実行する環境のインターフェースをノートブック型のエクスペリエンスとして統合するようにもなっている。またSparkとの統合は、SynapseがSpark MLlibの利点を活用し、MLワークロードを取り扱えるということも意味している。
「Spark ML」のほかにMicrosoftは「Azure Machine Learning」や「Power BI」「Azure Data Share」、(Microsoftの「Common Data Model」に基づく)Open Data Initiativeをサポートするアプリケーション/サービスの統合も検討しているが、具体的な情報はあまり出てきていない。こういった統合は時とともに具体化していくだろう。また、Synapseブランドは同日にローンチされたとはいえ、付随する新機能はプレビューという形式でのみ展開されているようだ。