不可視のデータをスマートデータに変える5つのステップ
「日々情報が増え続けるビッグデータ時代において、このような状況を解消するためには、一時的な課題解決でなく、組織的で継続したプロセスの自動化不可欠になります。そのための具体的なプロセスとして、識別・インデックス化から管理に至る、5つのステップが有効です」(徳久氏)

※クリックすると拡大画像が見られます
1番目のステップは、情報の保存場所の識別とインデックス化である。どこにどのようなデータが存在しているのか検出すると共に、それを検索可能な状態でインデックス化するのだ。データの種類や保管場所によっては、アクセス権限を一律に付与できない場合もあるので、それを含めて情報を洗い出す。
2番目のステップは、データの分析である。重複データやデータ使用状況を確認すると共に、パターン分析技術などを用いて、人間の判断を支援する付加情報を作り出す。
3番目のステップは、データの整理である。付加された情報を参照しながら、何を残すのか何を削除するのかを判断するのだ。そして、その判断に合わせて、データのカテゴリ化やタグ付け、ポリシー設定などを行う。
4番目のステップは、データの削除である。データのカテゴリやタグに応じて、重複データを削除したり、ポリシーに基づいて保存期間を過ぎたデータの圧縮などを行う。
5番目のステップは、データの移動と管理である。データの統制とアーカイブ化を継続したプロセスとして実施していくのだ。
すでに、アメリカで、フォーチュン500に属する大手製造業の企業が、このような5つのステップに沿って改善することで、データガバナンスの高度化を進めている。第1弾のプロジェクトとして100テラバイト級のデータの識別と分析を実施し、約30%のコスト削減を実現した。さらに、コンプライアンスを目的として、蓄積データを分析した上で、削除・アーカイブした。以後、同領域に保存されるデータに対して、分析結果を元に作成したポリシーにより、継続してチェックしていく。
とある日本においては、この5つのステップ全てに取り組んでいる企業はまだ少なく、ステップの5番目にあたるアーカイブによる保存が一般的となっている。
テラバイト級のダークデータ処理を支援する強力なソリューション
「膨大なダークデータに対して、このような5つのステップを実行するには、デジタルテクノロジーによる支援は不可欠です。日本ヒューレット・パッカードでは、そのために、強力なデータガバナンスソリューションを提供しています」(徳久氏)
たとえば、1番目のステップの情報の保存場所の識別とインデックス化に対しては、ポリシーなどを設定しなくても、データを取り込んだだけで、基本的な分類をして、可視化・インデックス作成まで実行可能となっている。そして、人間が、カテゴリに対してポリシー付けをしていくことができる。このような判断は、情報を読み込むほど、判断の精度が向上していくという。
また、ダークデータの大きな割合を占める電子メールなどのコミュニケーションシステムに対しては、マイクロソフトExchangeサーバやロータスノーツなどのデータソースに対応すると共に、監査・監視の豊富な手段を提供している。その結果、データ検索の効率化によるユーザの生産性向上や、コンプライアンス対応や監視機能強化を実現できる。このソリューション(HP Consolidated Archive)は、ガートナーの評価(Gartner Magic Quadrant for Archiving 2014)※でも、最上位に位置付けているという。
さらに、特に大手企業がERPで抱えるような構造化データであれば、アクセス頻度の低い過去データを外出しにした上でアーカイブ化できるソリューションも用意している。そのおかげで、データ容量増加にともなう性能劣化を改善し、ストレージの追加コストを抑制できる。そして、データベース容量を削減できれば、アップグレード時のダウンタイムも短縮できる。さらに、アーカイブデータは随時参照できるためビジネスインパクトを低くできる。その結果、増え続ける構造化データベースの肥大化の悩みを解消できるのだ。
これらのソリューションは、非構造化データにも対応したデータ分析プラットフォームであるHP IDOLと連携して動作させることもできる。IDOLは、複数のシステムにまたがって、データをインデックス化するエンジンで、ほぼすべてのソース・形式・場所からのデータを、高速でセキュリティおよび拡張性に優れた方法で統一的に扱うことができる。
「日本ヒューレット・パッカードは、こうしたデータガバナンス・ソリューションを提供するにあたって、膨大な企業データの管理・運用にフォーカスできるパートナーを見つけることが重要だと考えています」(徳久氏)
このような戦略的なパートナーとして、日本ヒューレット・パッカードが選んだのが、企業向けITサービスを提供するコムチュアである。コムチュアは、金融業や大手製造業で多くの実績を持っており、グループウェアの導入・運用などを得意としている。大規模グループウェアは、長年に渡って使っていくことで、ダークデータが蓄積し、レガシーなデータの管理が難しくなりがちだ。まずは日本でもニーズの高い電子メールなどのアーカイブソリューションであるHP Consolidated Archiveを主要なソリューションとし、その後データガバナンス・ソリューションを導入したい企業にとって、グループウェアを得意とする同社は、力強いサポーターとなるだろう。
※出典:「Gartner Magic Quadrant for Archiving 2014」2014.11 公表、米ガートナー社による調査
ビッグデータのクラウド化に先立って、ダークデータへの対処が不可欠
企業におけるビッグデータの活用では、対象となるデータがあまりにも膨大になるために、とりあえずクラウドに蓄積しておいて、後から使い方を検討するといった取り組みが少なくない。とはいえ、クラウドと言えども、ビッグデータのストレージコストは膨大になるし、むやみに蓄積したデータから価値の高い情報を引き出すことは決して容易ではない。巷では、データサイエンティストの人材不足がささやかれているが、それは、蓄積されたビッグデータから価値のあるナレッジを引き出すことの難しさを反映しているのではないだろうか。
企業情報のクラウド化やビッグデータ活用に取り組むに当たっては、価値の低いダークデータの整理から始めてみては如何だろうか。