Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた

羽野三千世 (編集部) 2016年01月20日 07時00分

  • このエントリーをはてなブックマークに追加

 年々拡大するビッグデータ市場。IDC Japanの予測によれば、国内のビッグデータソフトウェア市場の規模は2014~2019年にかけて年間平均成長率33.5%で拡大し、2019年には470億6100万円に達する。

 ビッグデータを分散処理・管理するためのソフトウェア基盤としてメジャーなOSSに「Apache Hadoop」がある。Hadoop上のデータ処理には、従来から「Hadoop MapReduce」や、MapReduce上で動作するクエリ処理技術である「Apache Hive」が利用されてきた。しかし、MapReduceとHiveには、大規模データの処理に活用する上での課題がある。

 MapReduceはスループット重視の設計であるため、どちらかというとバッチ処理に適しており、インタラクティブにクエリを実行したいというニーズを満たさない。また、Hiveのクエリ言語は“SQLライク”なHiveQLであり、Hadoop上で標準SQLを使いたいという声があった。

 そのような背景から、近年、Hadoop上で標準SQLを使って、HadoopのデータをDWHなどでインタラクティブ分析に活用できる技術として、OSSのSQL on Hadoopの開発が活発化している。その中でも、今特に注目されているのが、汎用データ分析処理エンジン「Apache Spark」のSQLクエリ処理のコンポーネントである「Spark SQL」だ。

Spark SQLとは

 Apache Sparkは、Spark SQLを含み、Spark Streaming(ストリーム処理)、MLlib(機械学習処理)、Graph X(グラフ処理)の4つのコンポーネントで構成される。クラスタマネージャとして、独自クラスタマネージャのほかに、Hadoop YARN、Apache Mesosを利用することが可能で、YARNと連携してHadoop上で動作する。

 クエリ処理を行うSpark SQLは、Hadoop HDFS上のファイル(CSV、JSON,Parquet、ORC、Avroなど)、Hiveテーブル、RDBなど、さまざまなデータに標準SQLでアクセスできるという特徴がある。また、Spark StreamingやMLlibと連携して、ストリーム処理、機械学習処理も標準SQLで利用可能にする。

 このSpark SQLは、スループットと低レイテンシを両立し、MapReduce上で動作するクエリ処理ソフトApache Hiveより高速だと言われている。ここでは、2015年12月に開催された「オープンソースカンファレンス2015 .Enterprise」で発表されたSpark SQLの性能検証結果を紹介する。同検証は、日立ソリューションズ オープンソース技術グループが実施し、同グループの倉又裕輔氏がカンファレンスで発表した(記事中に掲載する図表はすべて日立ソリューションズから提供を受けたもの)。

  • このエントリーをはてなブックマークに追加

SpecialPR

連載

CIO
ハードから読み解くITトレンド放談
研究現場から見たAI
ITは「ひみつ道具」の夢を見る
内製化とユーザー体験の関係
米ZDNet編集長Larryの独り言
今週の明言
「プロジェクトマネジメント」の解き方
田中克己「2020年のIT企業」
松岡功「一言もの申す」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
Fintechの正体
内山悟志「IT部門はどこに向かうのか」
情報通信技術の新しい使い方
三国大洋のスクラップブック
大河原克行のエンプラ徒然
コミュニケーション
情報系システム最適化
モバイル
通信のゆくえを追う
セキュリティ
企業セキュリティの歩き方
サイバーセキュリティ未来考
セキュリティの論点
ネットワークセキュリティ
スペシャル
Gartner Symposium
企業決算
ソフトウェア開発パラダイムの進化
座談会@ZDNet
Dr.津田のクラウドトップガン対談
CSIRT座談会--バンダイナムコや大成建設、DeNAに聞く
創造的破壊を--次世代SIer座談会
「SD-WAN」の現在
展望2017
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
HPE Discover
Oracle OpenWorld
Dell EMC World
AWS re:Invent
AWS Summit
PTC LiveWorx
古賀政純「Dockerがもたらすビジネス変革」
さとうなおきの「週刊Azureなう」
誰もが開発者になる時代 ~業務システム開発の現場を行く~
中国ビジネス四方山話
より賢く活用するためのOSS最新動向
「Windows 10」法人導入の手引き
Windows Server 2003サポート終了へ秒読み
米株式動向
実践ビッグデータ
日本株展望
ベトナムでビジネス
アジアのIT
10の事情
エンタープライズトレンド
クラウドと仮想化