MySpaceは米国時間9月15日、「qizmt」と呼ばれる新しいオープンソースプロジェクトを発表した。qizmtは、同社のデータマイニングチームが開発した分散型コンピュテーションフレームワークだ。
qizmtは、Googleにおける検索インデックス作成の中核的なシステムとしてよく知られている「MapReduce」をベースにしている。しかし、qizmtは、「Microsoft Windows」サーバで構成された大規模クラスタ上で動作する。これはコモディティレベルのLinuxマシンを利用するものと思われがちなコンピューティングスタイルとしては興味深い点である。
MapReduceは、巨大なデータセットを処理、生成するためのプログラミングモデル。キーとバリューのペアを処理して中間的なキーとバリューのペアセットを生成するmap関数や、その処理結果を集約するreduce関数を利用するのが特徴である。
筆者は、Javaアーキテクトで分散型システムの専門家でもあるEugene Ciurana氏に話を聞いた。Ciurana氏は、「大量の非構造化データのインデックス作成は、利用する技術に関係なく、困難な作業である。MapReduceは、並列化システムにおけるデータ処理に対して、簡潔で洗練されたソリューションを提供する」と述べる。
巨大なデータセットの管理を手がけるサイトが増えるにつれて、MapReduceのようなフレームワークや、Hadoopのようなプロジェクトは間違いなく普及していくだろう。そして、データ量の増加とともに、市場機会も増加する。ユーザーがこうした新ツールを活用する最良の方法を把握するまでの間、オープンソースというのは普及を拡大させる有効な手段である。
qizmtは現在、「People You May Know」機能で使用されており、近いうちにユーザーのおすすめなど、ほかの機能にも拡張される予定だ。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。 原文へ