分散処理のHadoopをクラウドで稼働させる「Amazon EMR」のメリットは何か?

三浦優子

2012-07-13 15:08

 Amazon Web Services(AWS)では、顧客から寄せられるさまざまな要望にあわせ、サービスを用意してきた。「Amazon Elastic MapReduce(EMR)」もその一つである。分散並列処理フレームワーク「Apache Hadoop」を仮想マシンの「Amazon Elastic Compute Cloud(EC2)」やストレージサービスの「Amazon Simple Storage Service(S3)」上で稼働させる。

 EMRは、Hadoopをオンデマンドで実行可能なため、利用料金は使った分だけ支払えばよい。「コストを抑えたい」というニーズに対応したサービスだ。ユニークなコストの抑え方として“スポットインスタンス”の活用がある。

 スポットインスタンスは、空いているAWSのサーバを入札形式で指し値で利用するものだ。サーバの数を増やすことで処理にかかる時間を短縮することができる。

 また、通常のサーバ増強に比べて低コストで済む。通常の3分の1のコストで、作業時間が大幅に短縮した例もあるという。Hadoopを運用するために必要なエンジニアをアテンドする必要がないので、人的コストや稼働までの時間も短縮することができる。

写真1 玉川憲氏

 こうした特徴に加えて、「ビッグデータによる解析のトライ&エラーを気軽に試すことができるというのも大きな特徴」とアマゾン データ サービス ジャパンのソリューションアーキテクチャ本部技術統括部長でエバンジェリストも務める玉川憲氏が説明する。

 データ解析するためには、データを収集、保存し、それを解析した結果を踏まえデータが十分なのか、何か足すべきデータがあるのかを判断する作業が不可欠だ。

 「この作業を本気でやろうとすれば、そのためのサーバ調達、チューニングといった作業とそのための初期投資費用がかかる。しかし、EMRを利用すれば大幅に費用は安くなり、稼働までの期間も短くなる」

 実際に解析作業を行ってみると、必要なデータが収集されていないことに気がつく場合も多いという。ビッグデータに発展するようなデータを集めていない企業も多く、「まずログを貯めることからとアドバイスする場合も多い」そうだ。通常、自前でサーバとシステムを用意するのであれば難しいトライ&エラーだが、それを試すことができるのがAWSの大きな強みとなっている。

 EMRは、AWSの他のサービスと連動することでS3との連携、JavaやRubyなどのSDKを利用することが可能となる。「毎回手作業でやるには時間がかかりすぎる作業をテンプレート、スクリプトなどを活用することで手間や時間を軽減することもできる」

 できるだけ省力化したビッグデータ活用が可能になる環境が整っている。EMRの活用例としては、ソーシャルデータの分析、ソーシャルグラフの構築、ユーザーの嗜好性解析、リコメンデーションエンジン、データマイニング、大量ファイルの解析などがあげられる。

写真1 So-netでの活用事例
※クリックすると拡大画像が見られます

 400万人の会員を抱えるSo-netは、ビジターの行動特性を追ったログを解析。オンプレミスなら数千万円の購入費用がかかるところ、AWS利用で初期投資ゼロ、月額五十数万円と大幅にコストを抑えることに成功。スポットインスタンスを利用することで、アドホック分析にかかる費用も50%削減した。

 リクルートでは不動産ポータルサイト「SUMO」での大量データ分析にEMRを活用。既存のRDBシステムで数時間かかっていた10億件のログ分析を10分で実行可能にした。

写真3 SUMOでの活用事例
※クリックすると拡大画像が見られます

 こうした事例は東京にデータセンターが開設された直後から存在しているが、最近はビッグデータでのAWS活用は第2フェーズといえる段階に入ったという。「できるだけ低料金で、試行錯誤しながら使って貰えるものへこちら側もさらに内容の充実を図りたい」(玉川氏)とサービス内容拡充にも意欲的だ。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    警察把握分だけで年間4000件発生、IPA10大脅威の常連「標的型攻撃」を正しく知る用語集

  2. セキュリティ

    迫るISMS新規格への移行期限--ISO/IEC27001改訂の意味と求められる対応策とは

  3. セキュリティ

    まずは“交渉術”を磨くこと!情報セキュリティ担当者の使命を果たすための必須事項とは

  4. セキュリティ

    生成AIを利用した標的型攻撃とはどのようなものなのか?実態を明らかにして効果的な対策を考える

  5. セキュリティ

    こんなにあった!従来型SIEMが抱える課題──次世代SIEMに必須の“8つの要件”とは?

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]