Google BigQuery
GoogleにはAmazon Redshiftと双璧をなす、Googleが提供しているクラウド型のデータウェアハウスがある。それがGoogle BigQueryだ。Redshift と比較すると管理が楽で、データ保存容量あたりの単価が非常に安いのがメリットである。
大規模データの扱いに慣れていない初心者が適当にデータを格納し、それに対して集計クエリを実行しても、高速に集計できる(例えば10億件×5億件のJOIN処理でも1分程度で結果が帰ってくる) ので、これから分析環境を構築しなければならない環境において最適なデータウェアハウスだろう。基本的に普段はAWSなどを利用しているような環境でも、データウェアハウスのみBigQueryを用いるといった選択もよい。
BigQueryの難点としては、クエリ実行ごとに課金される従量課金なので、コストが見積もりづらいこと。また大容量のデータに対して高頻度に集計クエリを投げる場合にはRedshiftよりも料金がかさむ可能性があることも挙げられる。
まとめ
以上のようなさまざまな分析のための技術やサービスがあるが、これらを適材適所で使い分けることが最も大事だ。
名称 | 種類 | 主用途 |
---|---|---|
R | 言語 | 前処理、レポート(主に軽負荷 or プロトタイプ) |
Python | 言語 | 前処理、レポート(複雑なロジック) |
Bash+MCMD | 言語+ツール | データの前処理 |
Fluentd | ツール | ログ収集ツール |
Hadoop関連 | 基盤技術 | インハウス型データウェアハウス。 汎用的だが、運用コストは高い。 |
Spark | 基盤技術 | インハウス型データウェアハウス。 機械学習やストリーム処理向け。運用コストは高い。 |
AWS | 基盤技術 | クラウド型の計算機資源、データウェアハウスなど。 多種多様なサービスが低運用コストで使用可。 |
Google BigQuery | 基盤技術 | クラウド型データウェアハウス。 運用コストは低いが、料金が見積もりづらい。 |
データ分析を行う際、情報システム部門側の立場からこれらのツールを高いレベルで使いこなし、マーケティング部門側の人間のサポートを行うことで、より高速、かつ深い日々の分析が可能になるはずだ。
- 戸嶋 龍哉(DATUM STUDIO株式会社 データエンジニア)
- 現在26才。DATUM STUDIO株式会社にてデータエンジニアとして、さまざまな業種の企業におけるデータ分析活用基盤の構築、テキストマイニングによる分析、機械学習アルゴリズムの整備に従事。株式会社ドリコムにて、ソーシャルゲームのデータ分析業務にも従事していた。最近、多種多様なデータを前処理する楽しさに目覚めた。データ分析を活用し1円でも多くの収益を上げるべく、がんばっている。