編集部からのお知らせ
令和時代のCIOとは?
「ニューノーマルとIT」新着記事一覧
Gartner Summit

HadoopとSpark--分散データ処理基盤における5カ条

日川佳三

2017-05-30 07:00

 5月23~24日に開催された「ガートナー データ&アナリティクス サミット2017」では、米Gartner リサーチ部門バイスプレジデントのMerv Adrian氏が、オープンソースの分散データ処理基盤であるHadoopとSparkについて解説。両者の活用とリスクの現状を説いた。

Gartner
Gartner リサーチ部門バイスプレジデント Merv Adrian氏

 Adrian氏は、最もよく使われているオープンソース(OSS)の一例として、HadoopとSparkを取り上げた。いずれも複数サーバのクラスタ環境で動作する分散データ処理基盤であり、バッチ処理やストリーミング処理などに利用できる。

 「SparkはHadoopにとって代わるものではないが、競合する」と、Adrian氏は指摘する。両者の根本的な違いは、Hadoopがストレージベース、Sparkがメモリーベースのアーキテクチャであることだ。それぞれに好ましいシナリオがあり、例えば、Sparkはリアルタイムなデータ変換処理も高速に処理できる。

 Hadoopを手掛けるベンダーは多く、ClouderaやHortonworks、MapR Technologies、富士通などがある。Amazon Elastic MapReduce(EMR)などクラウド専用のHadoopもあるが、ほとんどのベンダーはオンプレミスで動作するソフトウェアを提供している。一方で、Hadoopユーザーの25%がクラウド上で利用しており、オンプレミスからクラウドに移行する傾向が表れているという。

HadoopとSparkの典型的な使い方

 Hadoopの典型的なユースケースは、データベースのETL(抽出/変換/登録)とバッチ処理だ。データを抽出してデータウェアハウス(DWH)に登録し、DWHからデータマートに切り出してアナリストが分析する――といったシーンで利用される。

 Hadoopのユーザー事例としてAdrian氏は、レストランなどの格付けをする「Yelp」を紹介した。同社では毎日1.2Tバイトのログと写真が生成される。オンプレミスのHadoopクラスタだと容量が不足するため、Amazon EMRに移行し、これによって5万5000ドルのハードウェアコストを削減した。データの配備にかかる時間は、数カ月から数日に短縮されたという。

 一方、Sparkの典型的な用途が機械学習だ。不正の検知やレコメンデーション(推奨)システムなどに適し、予測分析では、データサイエンティストが3日間かけて実施していた作業を数分で完了できる。

Hadoop/Spark活用での5か条

 現在のHadoopとSparkにおける大きなトピックの1つは、IBMやOracle、Microsoftなどの既存ベンダーによる参入だ。ClouderaやHortonworksなどのHadoop/Sparkベンダーをかわすための戦略を採用し、製品を強化しているという。

 ユーザー動向では、ビッグデータをクラウドへ移行するユーザーが増えてきたことがある。クラウド環境でデータを操作した方が、オンプレミスでデータを操作するよりも安価だからだ。

 一方で問題点には、こうしたソフトウェアの早過ぎる開発ペースがユーザーを混乱させていることが挙げられた。特に、Sparkのバージョンアップはあまりに頻繁で、開発のペースにユーザーが追いついていないという。例えば、2015年10月3日にリリースしたSpark 1.5.1から、38日後、56日後、65日後、108日後、135日後と、矢継ぎ早に新版が出だ。これと並行し、Spark 2もリリースされた。

 講演の最後にAdrian氏は、Hadoop/Sparkを活用していく上での提言を幾つか提示した。

  • 新しいワークロードでHadoopとSparkの強みを生かす。まだリプレースの選択肢とはいえない
  • 着手する前にデータ品質とセキュリティの戦略を定義する
  • フレームワークのコンポーネントが急速に変化することを受け入れ、期待を上回るものかどうかを評価する
  • ベンダー任せにしない。他のデータ管理ソフトウェアと同様にスケジュールを定め、それに沿って計画を進める
  • クラウドは万能ではない。継続的/一時的ワークロードのコストを評価する

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

特集

CIO

モバイル

セキュリティ

スペシャル

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    セキュアなテレワークでビジネスを継続する「緊急時対応チェックリスト」

  2. クラウドコンピューティング

    ゼロトラストネットワークアクセス(ZTNA)を今すぐ採用すべき理由

  3. ビジネスアプリケーション

    今からでも遅くない、在宅勤務への本格移行を可能にする環境整備のポイント

  4. クラウド基盤

    アプリ開発者とIT管理者、両者のニーズを両立させるプラットフォームとは?

  5. ビジネスアプリケーション

    テレワークに立ちはだかる「紙・ハンコ」の壁を経費精算のペーパーレス化からはじめて乗り越える

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]