Gartner Summit

HadoopとSpark--分散データ処理基盤における5カ条

日川佳三 2017年05月30日 07時00分

  • このエントリーをはてなブックマークに追加

 5月23~24日に開催された「ガートナー データ&アナリティクス サミット2017」では、米Gartner リサーチ部門バイスプレジデントのMerv Adrian氏が、オープンソースの分散データ処理基盤であるHadoopとSparkについて解説。両者の活用とリスクの現状を説いた。

Gartner
Gartner リサーチ部門バイスプレジデント Merv Adrian氏

 Adrian氏は、最もよく使われているオープンソース(OSS)の一例として、HadoopとSparkを取り上げた。いずれも複数サーバのクラスタ環境で動作する分散データ処理基盤であり、バッチ処理やストリーミング処理などに利用できる。

 「SparkはHadoopにとって代わるものではないが、競合する」と、Adrian氏は指摘する。両者の根本的な違いは、Hadoopがストレージベース、Sparkがメモリーベースのアーキテクチャであることだ。それぞれに好ましいシナリオがあり、例えば、Sparkはリアルタイムなデータ変換処理も高速に処理できる。

 Hadoopを手掛けるベンダーは多く、ClouderaやHortonworks、MapR Technologies、富士通などがある。Amazon Elastic MapReduce(EMR)などクラウド専用のHadoopもあるが、ほとんどのベンダーはオンプレミスで動作するソフトウェアを提供している。一方で、Hadoopユーザーの25%がクラウド上で利用しており、オンプレミスからクラウドに移行する傾向が表れているという。

HadoopとSparkの典型的な使い方

 Hadoopの典型的なユースケースは、データベースのETL(抽出/変換/登録)とバッチ処理だ。データを抽出してデータウェアハウス(DWH)に登録し、DWHからデータマートに切り出してアナリストが分析する――といったシーンで利用される。

 Hadoopのユーザー事例としてAdrian氏は、レストランなどの格付けをする「Yelp」を紹介した。同社では毎日1.2Tバイトのログと写真が生成される。オンプレミスのHadoopクラスタだと容量が不足するため、Amazon EMRに移行し、これによって5万5000ドルのハードウェアコストを削減した。データの配備にかかる時間は、数カ月から数日に短縮されたという。

 一方、Sparkの典型的な用途が機械学習だ。不正の検知やレコメンデーション(推奨)システムなどに適し、予測分析では、データサイエンティストが3日間かけて実施していた作業を数分で完了できる。

Hadoop/Spark活用での5か条

 現在のHadoopとSparkにおける大きなトピックの1つは、IBMやOracle、Microsoftなどの既存ベンダーによる参入だ。ClouderaやHortonworksなどのHadoop/Sparkベンダーをかわすための戦略を採用し、製品を強化しているという。

 ユーザー動向では、ビッグデータをクラウドへ移行するユーザーが増えてきたことがある。クラウド環境でデータを操作した方が、オンプレミスでデータを操作するよりも安価だからだ。

 一方で問題点には、こうしたソフトウェアの早過ぎる開発ペースがユーザーを混乱させていることが挙げられた。特に、Sparkのバージョンアップはあまりに頻繁で、開発のペースにユーザーが追いついていないという。例えば、2015年10月3日にリリースしたSpark 1.5.1から、38日後、56日後、65日後、108日後、135日後と、矢継ぎ早に新版が出だ。これと並行し、Spark 2もリリースされた。

 講演の最後にAdrian氏は、Hadoop/Sparkを活用していく上での提言を幾つか提示した。

  • 新しいワークロードでHadoopとSparkの強みを生かす。まだリプレースの選択肢とはいえない
  • 着手する前にデータ品質とセキュリティの戦略を定義する
  • フレームワークのコンポーネントが急速に変化することを受け入れ、期待を上回るものかどうかを評価する
  • ベンダー任せにしない。他のデータ管理ソフトウェアと同様にスケジュールを定め、それに沿って計画を進める
  • クラウドは万能ではない。継続的/一時的ワークロードのコストを評価する

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

この記事を読んだ方に

関連ホワイトペーパー

連載

CIO
シェアリングエコノミーの衝撃
デジタル“失敗学”
コンサルティング現場のカラクリ
Rethink Internet:インターネット再考
インシデントをもたらすヒューマンエラー
トランザクションの今昔物語
エリック松永のデジタルIQ道場
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「展望2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
エンドポイントセキュリティの4つの「基礎」
企業セキュリティの歩き方
サイバーセキュリティ未来考
ネットワークセキュリティの要諦
セキュリティの論点
スペシャル
エンタープライズAIの隆盛
インシュアテックで変わる保険業界
顧客は勝手に育たない--MAツール導入の心得
「ひとり情シス」の本当のところ
ざっくり解決!SNS担当者お悩み相談室
生産性向上に効くビジネスITツール最前線
ざっくりわかるSNSマーケティング入門
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
Microsoft Connect()
HPE Discover
Oracle OpenWorld
Dell Technologies World
AWS re:Invent
AWS Summit
PTC LiveWorx
吉田行男「より賢く活用するためのOSS最新動向」
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
日本株展望
企業決算
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]