Gartner Summit

HadoopとSpark--分散データ処理基盤における5カ条

日川佳三

2017-05-30 07:00

 5月23~24日に開催された「ガートナー データ&アナリティクス サミット2017」では、米Gartner リサーチ部門バイスプレジデントのMerv Adrian氏が、オープンソースの分散データ処理基盤であるHadoopとSparkについて解説。両者の活用とリスクの現状を説いた。

Gartner
Gartner リサーチ部門バイスプレジデント Merv Adrian氏

 Adrian氏は、最もよく使われているオープンソース(OSS)の一例として、HadoopとSparkを取り上げた。いずれも複数サーバのクラスタ環境で動作する分散データ処理基盤であり、バッチ処理やストリーミング処理などに利用できる。

 「SparkはHadoopにとって代わるものではないが、競合する」と、Adrian氏は指摘する。両者の根本的な違いは、Hadoopがストレージベース、Sparkがメモリーベースのアーキテクチャであることだ。それぞれに好ましいシナリオがあり、例えば、Sparkはリアルタイムなデータ変換処理も高速に処理できる。

 Hadoopを手掛けるベンダーは多く、ClouderaやHortonworks、MapR Technologies、富士通などがある。Amazon Elastic MapReduce(EMR)などクラウド専用のHadoopもあるが、ほとんどのベンダーはオンプレミスで動作するソフトウェアを提供している。一方で、Hadoopユーザーの25%がクラウド上で利用しており、オンプレミスからクラウドに移行する傾向が表れているという。

HadoopとSparkの典型的な使い方

 Hadoopの典型的なユースケースは、データベースのETL(抽出/変換/登録)とバッチ処理だ。データを抽出してデータウェアハウス(DWH)に登録し、DWHからデータマートに切り出してアナリストが分析する――といったシーンで利用される。

 Hadoopのユーザー事例としてAdrian氏は、レストランなどの格付けをする「Yelp」を紹介した。同社では毎日1.2Tバイトのログと写真が生成される。オンプレミスのHadoopクラスタだと容量が不足するため、Amazon EMRに移行し、これによって5万5000ドルのハードウェアコストを削減した。データの配備にかかる時間は、数カ月から数日に短縮されたという。

 一方、Sparkの典型的な用途が機械学習だ。不正の検知やレコメンデーション(推奨)システムなどに適し、予測分析では、データサイエンティストが3日間かけて実施していた作業を数分で完了できる。

Hadoop/Spark活用での5か条

 現在のHadoopとSparkにおける大きなトピックの1つは、IBMやOracle、Microsoftなどの既存ベンダーによる参入だ。ClouderaやHortonworksなどのHadoop/Sparkベンダーをかわすための戦略を採用し、製品を強化しているという。

 ユーザー動向では、ビッグデータをクラウドへ移行するユーザーが増えてきたことがある。クラウド環境でデータを操作した方が、オンプレミスでデータを操作するよりも安価だからだ。

 一方で問題点には、こうしたソフトウェアの早過ぎる開発ペースがユーザーを混乱させていることが挙げられた。特に、Sparkのバージョンアップはあまりに頻繁で、開発のペースにユーザーが追いついていないという。例えば、2015年10月3日にリリースしたSpark 1.5.1から、38日後、56日後、65日後、108日後、135日後と、矢継ぎ早に新版が出だ。これと並行し、Spark 2もリリースされた。

 講演の最後にAdrian氏は、Hadoop/Sparkを活用していく上での提言を幾つか提示した。

  • 新しいワークロードでHadoopとSparkの強みを生かす。まだリプレースの選択肢とはいえない
  • 着手する前にデータ品質とセキュリティの戦略を定義する
  • フレームワークのコンポーネントが急速に変化することを受け入れ、期待を上回るものかどうかを評価する
  • ベンダー任せにしない。他のデータ管理ソフトウェアと同様にスケジュールを定め、それに沿って計画を進める
  • クラウドは万能ではない。継続的/一時的ワークロードのコストを評価する

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. クラウド基盤

    「情シス不足」が生み出す2大リスク--多忙な情シス部門が手放すべき業務とは?

  2. セキュリティ

    Google Chrome Enterprise が実現するゼロトラスト セキュリティの最新実情

  3. ビジネスアプリケーション

    ITSM徹底解説!ビジネスに関わる全ての方へ--「ITSMクイックスタートガイド」

  4. セキュリティ

    あなたの会社は大丈夫?--サイバー攻撃対策として必要な情報セキュリティの早分かりガイドブック

  5. ビジネスアプリケーション

    業務マニュアル作成の課題を一気に解決へ─AIが実現する確認と修正だけで完了する新たなアプローチ

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]