Snowflakeは米国時間6月13~16日に米国ラスベガスで年次カンファレンス「Snowflake Summit 2022」を開催している。それに併せ、同社データクラウド製品に対する一連の新機能が発表された。
Pythonのネイティブ対応とデータアクセスを拡充
まず、Pythonのサポート強化を中心とした、開発者向け機能の強化が発表された。具体的には、「Snowpark for Python」のパブリックプレビュー版を提供するとともに、現在開発中の「Streamlit」とのネイティブ統合によって高速なアプリケーションの開発サイクルを実現する。また、新たにストリーミングデータとの連動を強化すると同時に、オープンフォーマットのデータやオンプレミスで保存されているデータをデータクラウドで利用できるようにする。
Snowparkは、任意の開発言語やライブラリーを用いてスケーラブルなパイプライン、アプリケーション、機械学習(ML)ワークフローをSnowflake上で直接構築できるのデベロッパーフレームワーク。Snowpark for Pythonは、他の開発言語で記述されたSnowflakeのパイプラインやアプリケーションと同様に、Snowflakeのコンピューティングインフラストラクチャーで実行される。
さらに、Snowpark for Pythonを補完する次の新機能も追加される。
- Python用のSnowflakeワークシート(プライベートプレビュー):Snowflakeのユーザーインターフェース「Snowsight」上で直接、PythonやSnowparkのPython用DataFrame APIを使用してパイプライン、機械学習(ML)モデル、アプリケーションの開発を行い、コードの自動補完機能や数秒でカスタムロジックを生成する機能によって開発作業を効率化することができる
- SnowflakeとStreamlitの統合(開発中):Pythonベースのアプリケーション開発機能がSnowflakeに直接組み込まれる。ユーザーはインタラクティブなアプリケーションを開発し、安全にデータシェアリング、高速で反復的な開発サイクル、ビジネスチームとのコラボレーションを行って開発の影響力を高めることができる
- 大容量メモリーのウェアハウス(開発中):ユーザーはAnacondaとの統合によって利用可能となったPythonのオープンソースライブラリーを使用し、特徴量エンジニアリングや大量のデータセットを用いたモデルトレーニングなどのメモリー負荷の高い作業を安全に行えるようになる
- 時系列予測(プライベートプレビュー)をはじめとしたSQL機械学習:SQLユーザーはMLを駆使した予測を日々のビジネスインテリジェンス(BI)や分析に取り入れ、意思決定の質とスピードを高めることができる
加えて、サーバーレスでのストリーミングデータの取り込みを実現する「Snowpipe Streaming」(プライベートプレビュー)や宣言的なストリーミングデータの変換を簡略化する「Materialized Table」(開発中)も発表された。オープンソースのテーブルフォーマット「Apache Iceberg」を外部ストレージで利用できるようになったほか、SnowflakeがサポートするDell TechnologiesやPure Storageなどのオンプレミスストレージシステムに保存されているデータにもアクセスできるようになった。