Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた - (page 2)

羽野三千世 (編集部)

2016-01-20 07:00

性能検証の方法

 同検証では、Spark SQLのクエリ処理速度の基礎性能を、(1)クラスタノード数の増加に対する性能特性、(2)データ量の増加に対する性能特性の2つの観点で計測し、Apache Hive、代表的なOSSのリレーショナルデータベースであるPostgreSQLと比較した。レイテンシ(クエリ処理時間)とスループット(データ件数/クエリ処理時間)を評価指標にしている。

 検証環境の構成は下図の通り。


検証環境の構成

 検証のためのデータとして、PostgreSQLのベンチマークツール「pqbench」を用いて「銀行の入出金取引」を想定したデータを作成。下表の「pqbench_accounts」と「pqbench_history」の2テーブルを使用した。データ量を増加させる場合は、pqbench_historyのデータ件数を増加させている。


テストデータのテーブル

 クエリは、(1)SELECT、(2)SUM、(3)JOINの3種類を実行した。


実行クエリ

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    従来型のセキュリティでは太刀打ちできない「生成AIによるサイバー攻撃」撃退法のススメ

  2. セキュリティ

    AIサイバー攻撃の増加でフォーティネットが提言、高いセキュリティ意識を実現するトレーニングの重要性

  3. 運用管理

    メールアラートは廃止すべき時が来た! IT運用担当者がゆとりを取り戻す5つの方法

  4. 開発

    「スピード感のある価値提供」と「高品質な製品」を両立させるテスト会社の使い方

  5. セキュリティ

    クラウド資産を守るための最新の施策、クラウドストライクが提示するチェックリスト

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]