編集部からのお知らせ
「ZDNet Japan Summit」参加登録受付中! 
新着記事集:「負荷分散」
情シスから始まるデータ分析

データ分析にはどのようなツールが必要なのか--エンジニア編(後編)

戸嶋龍哉

2015-12-11 07:00

 「情シスから始まるデータ分析」連載第3回は日々の分析に役立つ技術について、前編では、情シス部門に向けて、エンジニアの視点からデータ分析に有用な統計言語のRやそれにひもづくライブラリ、Pythonなどを説明した。後編でもエンジニア視点でデータ分析に役立つさまざまな技術やツールを紹介する。

データの収集

収集方法

 中間データ作成などにおいて、分析用のデータを取得する方法として、よくあるのは以下のような方法だろう。

  1. サービス運用中のDBサーバからアドホックに取得する
  2. サービス運用中のDBから定期的に分析用データ格納サーバにダンプする
  3. ログデータをログ記録時に分析用データ格納サーバにも書き込む

 (1)、(2)の用途については前編の「集計処理の自動化・分析レポートの継続化」で紹介した技術を用いれば対処可能である。

Fluentd

 そして、(3)の用途に威力を発揮するのがログ収集用ツールのFluentdだ。さまざまなインプット、アウトプットがプラグイン化されており、用途によって使い分けることで、効率的なログ収集環境を構築することが可能だ。

 参考文献のFluentdのプラグイン一覧を見れば、多種多様な入出力に対応していることがわかるだろう。複数台のサーバ上のログをFluentdで1カ所に集約した後、適切な格納先に振り分けるようにすれば、各サービスのログデータを一元管理できるようになるので、管理が非常に楽になる。

分析用データの蓄積

Hadoopの周辺技術

 次はデータウェアハウス、大規模データの倉庫として用いる技術を見ていこう。クラウド型サービスが利用できない環境、つまりインハウスで全てデータを抱えなければならない場合の大規模ストレージの第1候補になるのはHadoopだ。

 Hadoopは大規模データ向けストレージとしての役割と、そこからデータを効率よく計算し取り出す役割の組み合わせである。データストレージ機構として、HDFSという分散ファイルシステム、HBaseという列指向の分散データベースなどが存在する。また、データの取得、計算処理機構として、Javaなどのプログラミング言語によるMapReduce処理の記述、Hive、Pig、ImpalaなどによるSQLライクなデータの取得や処理が可能である。処理内容に合わせて柔軟に使い分けよう。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

特集

CIO

モバイル

セキュリティ

スペシャル

ホワイトペーパー

新着

ランキング

  1. クラウドコンピューティング

    Google Cloudセキュリティ基盤ガイド、設計から運用までのポイントを網羅

  2. セキュリティ

    仮想化・自動化を活用して次世代データセンターを構築したJR東日本情報システム

  3. ビジネスアプリケーション

    スモールスタート思考で業務を改善! 「社内DX」推進のためのキホンを知る

  4. セキュリティ

    Emotetへの感染を導く攻撃メールが多数報告!侵入を前提に対応するEDRの導入が有力な解決策に

  5. セキュリティ

    偽装ウイルスを見抜けず水際対策の重要性を痛感!竹中工務店が実施した2万台のPCを守る方法とは

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]