ビジネス特化型SNSのLinedInは、社内で利用しているエンタープライズ情報のデータマイニングポータル「WhereHows」をオープンソースとして公開すると発表した。
LinkedInはWhereHowsを「データ発見・系統付けポータル」と呼んでいる。ビジネスの観点から見ると、WhereHowsはメタデータを利用して複数のデータストアからデータを発見し引き出すためのソフトウェアだ。
LinkedInによれば、同社のWhereHowsのレポジトリは、容量にして合計で15ペタバイトを超える5万件のデータセット、1万4000件のコメント、3500万件のジョブ実行履歴情報、および関連する系統付け情報のステータスを保持しているという。
同社はブログ記事で、WhereHowを作った理由を説明している。同社のデータエコシステムは個々の作業に特化して設計されたアプリケーションが増えすぎた結果多様化が進み、さまざまなスケジューラや「Infomatica」「Spark」「Hive」「Oracle」「Hadoop」「Teradata」など、ありとあらゆるシステムを包含するようになってしまったという。さらに同社は次のように述べている。
LinkedInのビッグデータエコシステムは、多様化が進みすぎてしまった。当社は多数の異なるデータソースやデータストアを持っている。このため、さまざまなスケジューリングエンジンによって動作するいくつものプロダクションパイプラインを作成しており、さらにデータを引き出し処理するのに用いるさまざまな変換エンジンをサポートしている。この種の専門化は、作業に最も適したツールを利用できるという点では優れているが、別の新たな問題も生み出す。さまざまな処理フレームワークやデータプラットフォーム、スケジューリングシステムにまたがるデータのフローと系統を全体的に把握することが、非常に難しくなってしまう。これによって、知見を得るために適切なデータセットを見つけようとする従業員の生産性が低下したり、破損したデータの発見や優先順位付けの作業が困難になる、重複する計算処理の発見と排除の機会が失われるなどの、多くの問題が生じる。
WhereHowsはLinkedInが持つさまざまなデータ処理ソフトウェアを統合し、メタデータを取り込む。その後、ウェブアプリおよびアプリケーションプログラムインターフェース(API)を通じて、データを発見する。WhereHowsのパーツには、レポジトリ、ウェブサーバ、他のシステムからメタデータを取得するバックエンドサーバが含まれる。
アーキテクチャは、以下の図のようになっている。
LinkedInは、オープンソースコミュニティーにWhereHowsを公開することで、このソフトウェアの開発に支援が得られることを期待している。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。