富士通は2月1日、運用中のブロックストレージを対象に、データの保存と同時にソフトウェアのみで重複するデータを除去する技術を開発したと発表した。なお、同技術の一部は、独立行政法人 新エネルギー・産業技術総合開発機構(NEDO)委託の「グリーンITプロジェクト ストレージシステム向け省電力技術の開発」の成果だという。
昨今、ストレージの有効活用やコスト低減を実現する技術として「重複除去技術」が注目されている。重複除去技術は、ストレージ内の重複するデータを発見し除去するもので、主にバックアップデータの容量を削減する用途に広く使われている。一方、システムで処理するデータが増えるにつれ、バックアップだけではなく、運用中のストレージの容量も重複除去により削減したいという要望が高まってきているという。
また、利用が広まっている仮想環境の場合、仮想マシン向けのOSデータやさまざまなデータは、重複してストレージに格納されている。これらのデータの中から重複データを発見して除去できれば、仮想システムで利用するストレージを有効活用することが可能だ。
同技術は、データの重複を瞬時に発見するアルゴリズムを開発することにより、特殊なハードウェアを使わずにソフトウェアだけで、運用中のブロックストレージを対象に格納された複数の仮想マシンのOSデータを含め、さまざまなデータの保存と同時にデータの重複を除去することが可能だという。これにより、たとえば仮想マシンのデータが10個ある場合、容量を約10分の1にスリム化でき、ストレージの有効活用やコスト低減を実現するとしている。
このアルゴリズムは、書き込むデータがすでにストレージに格納されたデータと重複していないかを瞬時に判断し、新規のデータのみをストレージに書き込み、重複したデータはストレージに記録されない。重複しているかどうかを効率的に判断する手法としてはブルームフィルタがあるが、同技術ではブルームフィルタを検索にも対応させ、重複の判断とともにデータの保管場所の検索も処理できるようにしたという。この技術により、検索に必要な処理量を大幅に削減し、ソフトウェアだけでデータ保存と重複除去が同時にできるようになったとしている。
また、仮想環境では、それぞれのOSが割り当てられたブロックストレージにデータを書き込むが、同技術ではすべてのブロックストレージの中で重複するデータを除去してからデータを書き込むため、OSからは意識することなく利用できるという。
富士通では、今後同技術の実用化に向けた開発をすすめ、データセンターでの活用など、数年以内の実用化を目指して取り組んでいく予定だ。