データ量の増加に対する性能特性
データ量の増加に対する性能検証では、PostgreSQLを1ノードで固定、Spark SQLとHiveは9ノードで固定。テストデータを2000万件(1GB)~40億件(200GB)まで5段階のデータ量で用意し、3種類のクエリを実行してレイテンシとスループットを計測した。
レイテンシ(秒)の測定結果を以下に示す。Spark SQLはほとんどのケースでHive、PostgreSQLより低レイテンシだった。
データ量増加に伴うレイテンシ(秒)の変化
「SELECT」実行時のスループットを測定した結果は次の通り。データ量増加に伴い、Spark SQLのスループットは単調増加し、増加率は徐々に低下している。ほとんどのケースで、Hive、PostgreSQLよりも高性能だった。
データ量増加に伴う「SELECT」実行時のスループットの変化
「SUM」実行時のスループットを測定した結果は次の通り。データ量増加に伴い、Spark SQLのスループットは単調増加し、増加率は徐々に低下している。ほとんどのケースで、Hive、PostgreSQLよりも高性能だった。
データ量増加に伴う「SUM」実行時のスループットの変化
「JOIN」実行時のスループットを測定した結果は次の通り。Spark SQLのスループットは、データ件数10億件でピークをとり、その後はほぼ一定値だったが、ほとんどのケースで、Hive、PostgreSQLよりも高性能だった。
データ量増加に伴う「JOIN」実行時のスループットの変化
SELECTとSUMのクエリ処理で、スループットの上昇率が徐々に低下した原因について、倉又氏は、「ハードウェアリソースの使用状況から、ディスクの読み込み負荷が高くなったことが性能低下の原因だと思われる」と考察した。また、JOINの処理での性能低下の原因は、「ディスクの読み込み負荷だけでなく、スワップアウトが頻発してディスクの書き込み負荷も高かった。大量データではメモリにデータが収まらなくなっていると思われる」(倉又氏)と述べた。
まとめ
同検証の結果、Spark SQLは、Hive、PostgreSQLと比較して、大量データを低レイテンシにクエリ処理できることがわかった。また、ノード数増加によりほぼ線形に性能向上することも検証された。一方で、メモリサイズを超える規模のデータ処理では性能が低下するため、Spark SQLの利用に当たっては、データ量に応じたメモリサイズ、ノード数の検討が必要だ。