Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた - (page 2)

羽野三千世（編集部）

2016-01-20 07:00

性能検証の方法

　同検証では、Spark SQLのクエリ処理速度の基礎性能を、（1）クラスタノード数の増加に対する性能特性、（2）データ量の増加に対する性能特性の2つの観点で計測し、Apache Hive、代表的なOSSのリレーショナルデータベースであるPostgreSQLと比較した。レイテンシ（クエリ処理時間）とスループット（データ件数／クエリ処理時間）を評価指標にしている。

　検証環境の構成は下図の通り。

検証環境の構成

　検証のためのデータとして、PostgreSQLのベンチマークツール「pqbench」を用いて「銀行の入出金取引」を想定したデータを作成。下表の「pqbench_accounts」と「pqbench_history」の2テーブルを使用した。データ量を増加させる場合は、pqbench_historyのデータ件数を増加させている。

テストデータのテーブル

　クエリは、（1）SELECT、（2）SUM、（3）JOINの3種類を実行した。

実行クエリ

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

メールマガジン購読のお申し込み

関連記事

関連ホワイトペーパー

開発者＆最新システム運用者必見！オブザーバビリティーにまつわる“6つの俗説”の誤りを暴く

人気カテゴリ: 経営; セキュリティ; クラウドコンピューティング; 仮想化; ビジネスアプリケーション; モバイル

特集

CNET Japan Top Story

ホワイトペーパー

新着

ランキング

セキュリティ

「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル
運用管理

「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは
運用管理

Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策
運用管理

Google Chrome ブラウザがセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性
ビジネスアプリケーション

技術進化でさらに発展するデータサイエンス／アナリティクス、最新の6大トレンドを解説

ホワイトペーパーライブラリー

ZDNET Japan クイックポール

注目している大規模言語モデル（LLM）を教えてください

カテゴリランキング

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]