ノード数の増加に対する性能特性
クラスタノード数の増加に対する性能検証では、PostgreSQLを1ノードで固定、Spark SQLとHiveはYARN上で3種類のクエリを実行し3ノード/6ノード/9ノードで性能を計測した。
レイテンシ(秒)の測定結果を以下に示す。Spark SQLは全体的にHive、PostgreSQLより低レイテンシだった。
![](/storage/2016/01/18/2a6aa194aaf8510bddab22bfd1449a91/Ph05.jpg)
ノード数増加に伴うレイテンシ(秒)の変化
「SELECT」実行時のスループットを測定した結果は次の通り。ノード数増加に伴い、Spark SQLのスループットはほぼ線形に増加しており、Hive、PostgreSQLよりも高性能だった。
![](/storage/2016/01/18/99eb56e6c792f4d514b4a24be81a4ae9/Ph06.jpg)
ノード数増加に伴う「SLECT」実行時のスループットの変化
「SUM」実行時のスループットを測定した結果は次の通り。ノード数増加に伴い、Spark SQLのスループットはほぼ線形に増加しており、Hive、PostgreSQLよりも高性能だった。
![](/storage/2016/01/18/8c93c4c8a2e237738bacad013ebd494d/Ph07.jpg)
ノード数増加に伴う「SUM」実行時のスループットの変化
「JOIN」実行時のスループットを測定した結果は次の通り。ノード数増加に伴い、Spark SQLのスループットはほぼ線形に増加しており、Hive、PostgreSQLよりも高性能だった。
![](/storage/2016/01/18/1e85c32e3fb60ebeac193cbd99ca49ed/Ph08.jpg)
ノード数増加に伴う「JOIN」実行時のスループットの変化