OSSとビッグデータアナリティクス

アナリティクスの勘所--仮説構築とデータ収集の柔軟性 - (page 2)

島田 茂(日本テラデータ)

2016-06-21 07:30

包括的なアーキテクチャの各要素におけるOSSによるソリューション例

 データ収集とデータ蓄積において、一般的により使われてきている代表的なOSSのパッケージをベースとしたソリューションを以下に示す。(OSSの世界は常に進化し続けており、この他にも次々と新たなソリューションが世界中の至る所で開発されている)

図3
図3

 最後に、現時点で、筆者たちがオープンソースで構築しているアーキテクチャを簡単に紹介する(図3)。

 特にfluentdは、とても簡単にデータを収集できるという点では、非常に便利なソフトウエアである。kafkaとともに今後の包括的なアーキテクチャには必須になるのではなかろうか(サンプルコード1:参考)。

 今回は、自立的にPush型でデータを取り込めるfluentdとPull型でデータ取得のタイミングをコントロールしやすいkafkaの接続を試みている。

図4
図4

 fluentdは、独立したアプリケーションで、インストールしたサーバーで単独で動作する。現時点ではクラスタ構成などは装備さていないようだ。但しさまざまなアプリケーションやDBなどに接続可能なプラグインが多数開発されていて、インストールも設定も非常にシンプルである。

 fluentdがインストールされたデータソースから、Push型でDWHやデータレイクへのデータ転送と簡易集計が可能となり、リアルタイムに必要とは言わないまでも常時データを取り込み続けることができる。

 Apache kafkaは、2011年にLinkedInから公開されたオープンソースの分散メッセージング・システムである。ウェブサービスなどから発正する大容量のデータ(e.g., ログやイベント)を高スループット/低レイテンシに収集/配信することを目的に開発されており、クラスタ構成をも考慮して設計されており、耐障害性がある。Pull型でリアルタイムにデータ収集をする場合に、制御がしやすいなどの利点がある。

 Talendは、ETLのOSSソリューションとして多くの実績があり、OSSの枠組みを維持しつつ、ビジネスの世界でも活躍しているコミュニティおよび企業である。既にETLの枠を超え、さまざまなデータ統合・管理ソリューションに適用が拡がっているが、データ収集という観点でも優れた機能がOSSでも実装されている。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]