「ビッグデータ」ストレージの機能
ストレージの世界は、「ビッグデータ」という言葉が喧伝される前から大容量化そして非定型データへの対応という方向を進んできている。
ひとつの顕著な動向はスケールアウト型ストレージだ。ウェブ系サーバの世界では、多数の小型サーバの分散処理で性能を向上するスケールアウト方式が一般的になっている。この動向はストレージにおいてもまったく同様であり、個々の性能はそれほど高くないが安価なストレージ機器を多数使用することで負荷分散を実現し、性能を向上するスケールアウト方式が注目を集めている。
スケールアウト型ストレージにおける課題は、均等な負荷分散を行うためのデータの適正配置である。特定のドライブにアクセスが集中することになれば、そこが性能のボトルネックになり、ドライブを追加しても性能向上に寄与しない。そのような状況を防ぎ、できるだけ均等に各ドライブへのアクセスが分散されるようにする必要がある。さらに、アクセスが集中するデータ(ホットスポット)を高性能のドライブ(典型的にはSSD)に置けば、高価なSSDを有効活用しつつ全体の性能を向上できる。
このようなデータの配置作業をユーザー自身が行なうことによる負荷は、従来型のデータにおいても十分に大きいが、「ビッグデータ」の世界では非現実的となるだろう。システムが自動的にデータの最適配置を行なってくれる機能が不可欠だ。ハードディスクドライブなどのストレージ機器の基本構成要素はかなりの程度コモディティ化されている。このような自動化データ配置技術はベンダーが独自の差別化要素を提供できる領域になっている。
スケールアウト型ストレージに加えて、ベンダーが「ビッグデータ」対応として挙げることが多い他の機能としては、シンプロビジョニング、重複排除(デデュプ)、データ圧縮などがある(なお、仮想化についてはもはや常識化しているので敢えて触れない)。これらはストレージハードウェア所要量の削減技術であり、「ビッグデータ」の環境では特に効果が高い。重複排除は、今まではバックアップやアーカイブにおいて適用されることが通常であったが、主ストレージにも適用する動きが顕著となっている。