分析クラスタフレームワーク「Apache Spark」は、人気の統計向けプログラミング言語「R」へのアクセスを提供することでデータサイエンティストの仕事を容易にすることを目指す。
一般公開された最新の「Apache Spark 1.4」では、Python 3のサポートに加えてRもサポートされた。R言語ユーザーはR言語向けのAPIである「SparkR」を利用して、大規模なデータセットを直接利用できる。
SparkRはカリフォルニア大学バークレー校のAMPLabで開発されたもので、Apache SparkにRのフロントエンドを提供するものだ。Sparkの分散型コンピュータエンジンを利用して、ユーザーは大規模なデータ解析をRシェルから動かすことができるという。
Spark 1.4はこのほかにも、Sparkの「DataFrame API」を強化し、Spark SQLとDataFrameライブラリに、ユーザーがウインドウの範囲上で統計を計算できるWindow機能が加った。
「DataFrameオペレーションの実行を高速化するために、Spark 1.4ではパフォーマンスに関する幅広い取り組みである『Project Tungsten』の一部を初期実装した。Tungstenは次期1.5で重要な機能となるものだ。Spark 1.4は、シリアライザのメモリ利用を強化し、バイナリアグリゲーションの高速化を実現する」とSparkベンダーDatabricksのPatrick Wendell氏は述べている。
Wendell氏はSpark 1.2で実験導入した機械学習パイプラインAPIについても触れており、Spark 1.4では安定版となり、運用環境で利用できるとしている。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。