海外コメンタリー

インメモリビッグデータシステムをつなぐ「Apache Arrow」 - (page 2)

Andrew Brust （Special to ZDNET.com）翻訳校正：石橋啓一郎

2016-02-24 06:30

　ステルススタートアップであるDremioの共同創業者兼最高技術責任者（CTO）であり、Arrowのプログラム管理委員会（PMC）委員長でもあるJaques Nadeau氏は、2月第2週にこのプロジェクトについて筆者に説明してくれた。Apache DrillのPMC委員長でもあるNadeau氏によれば、Drill、Impala、Kudu、Parquet、Ibis、Sparkが2016年中にArrowに対応するという。また、ほかのオープンソースプロジェクトもこれに続く予定になっている。さらに、商用プロジェクトもこのArrowの流れに乗るのかとNadeau氏に聞いてみたところ、同氏は楽観的な見通しを示した。

Arrowの恩恵

　複数のプロジェクトでArrowが使えるようになれば、それらのプロジェクトの間では、少ないオーバーヘッドでデータを共有できる。これは、複数の独自のインメモリデータフォーマット間で、データのシリアライズやデシリアライズを行う必要がなくなるためだ。同じクラスタ上にインストールされたシステムでは、各ノードでメモリを共有していれば、データを移動したり変換したりする必要はなくなる。

　その代わり、異なるプロジェクトや製品がパイプラインを形成し、データに対して順番に累積的な形で処理を行うことが可能になる。また、Arrowのフォーマットは最新のCPUアーキテクチャに合わせて最適化されており、オンチップキャッシュストレージや、CPUの1クロックサイクルで複数の値を同時に処理できるIntelのSIMD（Single Instruction Multiple Data）命令を最大限に活用できる。

　開発者もこの恩恵にあずかることができる。最初に提供される言語バインディングは、Java、Python、C、C++であり、これらの言語を使っている開発者は、Arrowに対応するビッグデータプロジェクトと同じパイプラインに自分のアプリケーションを加えることができる。R、Julia、JavaScriptの言語バインディングも、近日中に利用できるようになるはずだ。

ビッグデータ業界における標準化の必要性

　この取り組みは実を結ぶだろうか？このような協力プロセスは、本当にうまくいくのだろうか？Nadeau氏の話によると、13のプロジェクトのリーダーはすでに協力してプロジェクトに取り組んでおり、その取り組みは技術的なことだけでなく、現在まで情報をほぼ秘密にしてきたことなどにも及んでいる。これはよい前兆だ。

　筆者はこれまで、ビッグデータ関連技術やApacheの各プロジェクトが分断されている状況について、繰り返し問題を指摘してきた。オープンソースビッグデータ市場では、激しい競争の下、複数のプロジェクトで多くの取り組みが重複している。これは非効率的であると同時に、顧客のテクノロジ選定をリスクの高い経験にしている。このことは、新しいテクノロジの導入を妨げ、アナリティクス業界全体の不利益になっている。

　Apache Arrowのようなプロジェクトは、多くのテクノロジの相互運用性と性能を高めることによって、この問題を解決するものだ。Arrowは複雑さを減らし、本来各プロジェクトで共通であるべき技術を再発明するのに使われているリソースを、独自機能の開発に使えるようにしてくれる。これこそが標準が持つ力だ。Apache Arrowは、ビッグデータ業界の常識に勝利を勝ち取ってくれるかもしれない。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。