情シスから始まるデータ分析

データ分析にはどのようなツールが必要なのか--エンジニア編(後編) - (page 3)

戸嶋龍哉

2015-12-11 07:00

Google BigQuery

 GoogleにはAmazon Redshiftと双璧をなす、Googleが提供しているクラウド型のデータウェアハウスがある。それがGoogle BigQueryだ。Redshift と比較すると管理が楽で、データ保存容量あたりの単価が非常に安いのがメリットである。

 大規模データの扱いに慣れていない初心者が適当にデータを格納し、それに対して集計クエリを実行しても、高速に集計できる(例えば10億件×5億件のJOIN処理でも1分程度で結果が帰ってくる) ので、これから分析環境を構築しなければならない環境において最適なデータウェアハウスだろう。基本的に普段はAWSなどを利用しているような環境でも、データウェアハウスのみBigQueryを用いるといった選択もよい。

 BigQueryの難点としては、クエリ実行ごとに課金される従量課金なので、コストが見積もりづらいこと。また大容量のデータに対して高頻度に集計クエリを投げる場合にはRedshiftよりも料金がかさむ可能性があることも挙げられる。

まとめ

 以上のようなさまざまな分析のための技術やサービスがあるが、これらを適材適所で使い分けることが最も大事だ。

本記事における、紹介技術まとめ
名称種類主用途
R言語前処理、レポート
(主に軽負荷 or プロトタイプ)
Python言語前処理、レポート(複雑なロジック)
Bash+MCMD言語+ツールデータの前処理
Fluentdツールログ収集ツール
Hadoop関連基盤技術インハウス型データウェアハウス。
汎用的だが、運用コストは高い。
Spark基盤技術インハウス型データウェアハウス。
機械学習やストリーム処理向け。
運用コストは高い。
AWS基盤技術クラウド型の計算機資源、
データウェアハウスなど。
多種多様なサービスが
低運用コストで使用可。
Google BigQuery基盤技術クラウド型データウェアハウス。
運用コストは低いが、
料金が見積もりづらい。

 データ分析を行う際、情報システム部門側の立場からこれらのツールを高いレベルで使いこなし、マーケティング部門側の人間のサポートを行うことで、より高速、かつ深い日々の分析が可能になるはずだ。

戸嶋 龍哉(DATUM STUDIO株式会社 データエンジニア)
現在26才。DATUM STUDIO株式会社にてデータエンジニアとして、さまざまな業種の企業におけるデータ分析活用基盤の構築、テキストマイニングによる分析、機械学習アルゴリズムの整備に従事。株式会社ドリコムにて、ソーシャルゲームのデータ分析業務にも従事していた。最近、多種多様なデータを前処理する楽しさに目覚めた。データ分析を活用し1円でも多くの収益を上げるべく、がんばっている。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]