Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた - (page 4)

羽野三千世 (編集部)

2016-01-20 07:00

データ量の増加に対する性能特性

 データ量の増加に対する性能検証では、PostgreSQLを1ノードで固定、Spark SQLとHiveは9ノードで固定。テストデータを2000万件(1GB)~40億件(200GB)まで5段階のデータ量で用意し、3種類のクエリを実行してレイテンシとスループットを計測した。

 レイテンシ(秒)の測定結果を以下に示す。Spark SQLはほとんどのケースでHive、PostgreSQLより低レイテンシだった。


データ量増加に伴うレイテンシ(秒)の変化

 「SELECT」実行時のスループットを測定した結果は次の通り。データ量増加に伴い、Spark SQLのスループットは単調増加し、増加率は徐々に低下している。ほとんどのケースで、Hive、PostgreSQLよりも高性能だった。


データ量増加に伴う「SELECT」実行時のスループットの変化

 「SUM」実行時のスループットを測定した結果は次の通り。データ量増加に伴い、Spark SQLのスループットは単調増加し、増加率は徐々に低下している。ほとんどのケースで、Hive、PostgreSQLよりも高性能だった。


データ量増加に伴う「SUM」実行時のスループットの変化

 「JOIN」実行時のスループットを測定した結果は次の通り。Spark SQLのスループットは、データ件数10億件でピークをとり、その後はほぼ一定値だったが、ほとんどのケースで、Hive、PostgreSQLよりも高性能だった。


データ量増加に伴う「JOIN」実行時のスループットの変化

 SELECTとSUMのクエリ処理で、スループットの上昇率が徐々に低下した原因について、倉又氏は、「ハードウェアリソースの使用状況から、ディスクの読み込み負荷が高くなったことが性能低下の原因だと思われる」と考察した。また、JOINの処理での性能低下の原因は、「ディスクの読み込み負荷だけでなく、スワップアウトが頻発してディスクの書き込み負荷も高かった。大量データではメモリにデータが収まらなくなっていると思われる」(倉又氏)と述べた。

まとめ

 同検証の結果、Spark SQLは、Hive、PostgreSQLと比較して、大量データを低レイテンシにクエリ処理できることがわかった。また、ノード数増加によりほぼ線形に性能向上することも検証された。一方で、メモリサイズを超える規模のデータ処理では性能が低下するため、Spark SQLの利用に当たっては、データ量に応じたメモリサイズ、ノード数の検討が必要だ。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]