Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた - (page 2)

羽野三千世 (編集部)

2016-01-20 07:00

性能検証の方法

 同検証では、Spark SQLのクエリ処理速度の基礎性能を、(1)クラスタノード数の増加に対する性能特性、(2)データ量の増加に対する性能特性の2つの観点で計測し、Apache Hive、代表的なOSSのリレーショナルデータベースであるPostgreSQLと比較した。レイテンシ(クエリ処理時間)とスループット(データ件数/クエリ処理時間)を評価指標にしている。

 検証環境の構成は下図の通り。


検証環境の構成

 検証のためのデータとして、PostgreSQLのベンチマークツール「pqbench」を用いて「銀行の入出金取引」を想定したデータを作成。下表の「pqbench_accounts」と「pqbench_history」の2テーブルを使用した。データ量を増加させる場合は、pqbench_historyのデータ件数を増加させている。


テストデータのテーブル

 クエリは、(1)SELECT、(2)SUM、(3)JOINの3種類を実行した。


実行クエリ

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

マイナンバーカードの利用状況を教えてください

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]