昨今、企業のデータアーキテクチャーは、データを保存、抽出、変換、活用する複数のコンポーネントで構成され、非常に複雑なものになっています。企業がよく抱く疑問として、「きちんと機能するストレージシステムやETL(抽出・変換・ロード)のような適切なデータ統合技術が既にあるのに、なぜデータ仮想化が必要なのか」というものがあります。
データ仮想化技術と、ETLのような従来のデータ統合技術では、データへのアクセス、また、その統合方法や配信機能が大きく異なります。ETLはソースシステムからデータウェアハウス(DWH)のようなターゲットシステムにデータを複製するものですが、データ仮想化基盤は、基礎となるデータソースの論理的なビューを作成し、結果として得られるデータセットをリアルタイムに利用可能にします。
過去のデータに基づいて長期的な戦略を練るビジネスユーザーにとって、ETLのような技術は最適なソリューションかもしれません。しかし、ビジネスの運用面を担当する別の領域では、データの活用方法が全く異なります。そこではデータレイテンシー(データの遅延)が発生してはなりません。このような場面では、データ仮想化こそが採用すべきテクノロジーとなります。
オンプレミスとクラウドの両方のシステムを含む複数のデータベース管理システムを用いて、さまざまな種類のデータを扱うのは煩雑ですが、データ仮想化基盤により、簡単に管理できるようになります。ここでは、データ仮想化技術を用いることで、既にデータレイク、DWH、マスターデータ管理(MDM)システムが導入されているエンタープライズアーキテクチャーに、どのように付加価値が加わるのかを解説します。
データ仮想化とデータウェアハウス
通常、企業は多くの費用と時間をかけてエンタープライズデータウェアハウス(EDW)を構築しています。しかし最近では、ビジネスシナリオが複雑になっているため、従来のEDWのユースケースには当てはまらないプロジェクトが発生することが多くなっています。複雑なユースケースを既存のDWHに無理やり当てはめることもありますが、それでは設計がさらに複雑になるだけです。
このような状況では、データ仮想化技術で既存システムの機能を拡張、強化することがソリューションの一つとなります。組織内には既にDWHが存在しているものの、レポートやアナリティクス機能を強化するため、ビジネスユーザーが新しいデータソースを追加する必要があるという状況では、データ仮想化基盤がDWHの上に重ねられ、また新しいデータソースにも接続されます。
レポートツールでは、データ仮想化基盤をデータソースとして使用し、(DWH内の)既存データと新しいデータソースからのデータを組み入れることができます。また、地域別のDWHなど、組織内に複数のDWHがあり、ビジネス上でデータのシングルビューが必要とされる場合にも、データ仮想化基盤を用いることでシングルビューを構築できます。
データ仮想化とデータレイク
データレイクは、非常に大規模なデータのリポジトリーです。通常、データはDWHの定義に関わるような大きな変換やモデリングを経ることなく、元のフォーマットのまま複製されます。データレイクの最大のリスクは、データレイク全体に適用されるガバナンスや一貫したセキュリティ、アクセスコントロールが欠如していることです。
データレイクでは通常、データの内容や企業のプライバシー、また規制上の責任をほとんど考慮されることなく、データが蓄積されていきます。Gartnerは、ガバナンスの欠如、またデータレイクにあるデータの品質や系統を把握できないことで、企業が価値あるデータを探し出し、再利用する能力を著しく低下させると指摘しています。
企業は、データ仮想化技術を導入し、共通のアクセスポイントやセキュリティレイヤー、検索/発見機能を実現することで、ガバナンスの効いたデータレイクアーキテクチャーを完成させようとしています。また、データ仮想化技術によって、ビジネスインテリジェンス(BI)ユーザー、ビジネスアナリスト、データサイエンティストなど、幅広いユーザーがデータレイク内でデータを発見、利用できるようになります。
データ仮想化が多くの企業にもたらす最も重要なメリットは、ガバナンスの効いたデータレイクのデータを一貫性のあるセキュリティモデルの下で公開できることです。データへのアクセスは、論理モデルや物理モデル、また例えば、ブラウザーや外部SQLクエリークライアント、BIツール、統計分析パッケージ、データプレパレーションツールなど、さまざまな方法で行われます。どのような場合でも、一貫したユーザーベースまたはロールベースのセキュリティ権限が適用され、ガバナンスが管理されたデータレイク内のどのリポジトリーからのデータも、適切な権限を持ったユーザーにしか閲覧できないようになっています。
データ仮想化とMDM
MDMプロジェクトは複雑でコストがかかるものの、その多くが期待通りの価値を提供できません。その理由は、スコープがあまりにも広く、またデータインフラ環境全体に、あまりに多くの変化と不確実性をもたらすためです。
データ仮想化技術は、MDMツールを利用しているかどうかに関わらず、あらゆるMDMプロジェクトに柔軟性をもたらし、価値実現までの時間(time-to-value)を短縮します。MDMツールを利用しないプロジェクトでもデータ仮想化レイヤーによって、関連するソースシステムから「マスターデータ」を引き出して、仮想的なMDMリポジトリーを作成することができます(複数のソースから顧客のモンタージュマスタービュー作成など)。
この仮想マスターデータは、業務アプリケーションで使用でき、データエンティティー(顧客など)の、単一で一貫性のあるビューを提供します。あるいは、既にMDMソリューションを導入済みの場合は、データ仮想化レイヤーにより、ソーシャルメディアやウェブからの非構造化データなど、他のデータソースにアクセスすることで、MDMソリューションのデータを拡張し、充実させることができます。
BIの観点から見ると、データ仮想化レイヤーは、既存のDWHやデータベース、その他のデータソースの上に、柔軟かつ変更や管理が容易な「論理的データアクセスレイヤー」を作成します。アプリケーション開発・運用の観点からは、このデータアクセスレイヤーは、非常に汎用性の高い「共有データサービスレイヤー」と見ることができます。
このレイヤーにより、データを保持する物理的なインフラストラクチャーは業務アプリケーションから切り離され、またそうすることで組織のデータプロビジョニングが大幅に簡素化されます。このように、データ仮想化技術はさまざまな場面で利用することができ、その汎用性と利点により、企業のデータアーキテクチャーにおいて重要な要素となっています。
- 小川直樹
- Denodo Technologies シニアマーケティングマネージャー
- プログラマーから始まり、大手外資系ソフトウェアベンダーにて、ストレージソフトウェアを中心にプリセールス、プロダクトマーケティング等を担当し、2008年よりジュニパーネットワークスにてソリューションマーケティングマネージャー、2015年からはSonicWALLにてフィールドマーケティングマネージャーなど歴任。2019年からDenodo Technologiesにて現職。