「Apache Spark 1.4」が公開--R言語をサポート、機械学習パイプラインAPIが安定版に

Toby Wolpe (ZDNET.com) 翻訳校正: 編集部

2015-06-15 10:36

 分析クラスタフレームワーク「Apache Spark」は、人気の統計向けプログラミング言語「R」へのアクセスを提供することでデータサイエンティストの仕事を容易にすることを目指す。

 一般公開された最新の「Apache Spark 1.4」では、Python 3のサポートに加えてRもサポートされた。R言語ユーザーはR言語向けのAPIである「SparkR」を利用して、大規模なデータセットを直接利用できる。

 SparkRはカリフォルニア大学バークレー校のAMPLabで開発されたもので、Apache SparkにRのフロントエンドを提供するものだ。Sparkの分散型コンピュータエンジンを利用して、ユーザーは大規模なデータ解析をRシェルから動かすことができるという

 Spark 1.4はこのほかにも、Sparkの「DataFrame API」を強化し、Spark SQLとDataFrameライブラリに、ユーザーがウインドウの範囲上で統計を計算できるWindow機能が加った。

 「DataFrameオペレーションの実行を高速化するために、Spark 1.4ではパフォーマンスに関する幅広い取り組みである『Project Tungsten』の一部を初期実装した。Tungstenは次期1.5で重要な機能となるものだ。Spark 1.4は、シリアライザのメモリ利用を強化し、バイナリアグリゲーションの高速化を実現する」とSparkベンダーDatabricksのPatrick Wendell氏は述べている。

 Wendell氏はSpark 1.2で実験導入した機械学習パイプラインAPIについても触れており、Spark 1.4では安定版となり、運用環境で利用できるとしている。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]