かつてない速さで成長しているクラウドコンピューティング技術は、ほとんどの企業にとって不可欠なものとなり、後はいつ導入するかの問題になっています。クラウドアプリケーションを使えば、情報の可視化や共有をリアルタイムに行うことも簡単です。クラウドベースのサービスならば、需要の増減に合わせて処理能力を柔軟に拡大縮小できます。クラウドコンピューティングによりハードウェアへの投資を削減できるため、大きなコスト抑制にもなります。
一方で、クラウドコンピューティングの全面的な採用を妨げるさまざまな課題もあります。セキュリティや運用管理、パフォーマンスをはじめ、複数のクラウドを管理する手間やベンダーロックインの問題に至るまで、企業が慎重になる理由には事欠きません。往々にして詳細な事前調査が足がかりとなります。データソースが多種にわたり、地理的に分散している場合、データの移動と複製を最小限にして時間とコストを節約することが、よりいっそう重要になります。
クラウドにおけるデータ統合の課題
Gartnerの調査によると、パブリッククラウドを使用している組織の81%が複数のクラウドプロバイダーを利用しています。大部分の企業において、ハイブリッドクラウドというアーキテクチャーが最も一般的なデプロイ方法となっています。クラウドの採用が進んでいる組織では、各クラウドプロバイダーの能力が生きるようにワークロードを振り分けたいため、マルチクラウドのデプロイが選択されます。
マルチクラウドやハイブリッドクラウドへの移行が増えているため、異種クラウドシステムのデータ統合のニーズも増えています。クラウドデータ統合を利用すれば、複数アプリケーション間(パブリッククラウド、プライベートクラウド、オンプレミス)でのデータの同期と共有を、一貫性を持って行うことができます。
しかし、クラウドデータ統合のプロジェクト自体にも課題があります。多くの場合、クラウドシステムはスケーラビリティーやパフォーマンスに重点を置いて設計されており、データ統合については意識されません。このため、クラウドシステムと外部システムのデータを同期することは、たいへん難しい課題となります。
また、クラウドのアプリケーションで取り扱うデータ形式にも複数の選択肢があります。多くの調査によると、利用されているデータの約3分の2がいまだに構造化データであり、多くの非構造化データは完全には利用されていません。ETL(抽出、変換、格納)のような従来のデータ統合技術は、非構造化データにはあまり役に立ちません。
データ仮想化によるクラウドデータ統合の推進
真に必要なのは、アジリティー、リアルタイム性、コスト効率の優れたデータ統合プラットフォームを使用する包括的なクラウド戦略です。最新のデータ統合技術であるデータ仮想化は、オンプレミスとクラウドシステム、複数ベンダーのクラウドにわたるマルチロケーションアーキテクチャーに対応し、それぞれにワークロードが分散していても構いません。
最新のデータ仮想化プラットフォームは、ハイブリッドクラウドのデータを統合するのに適した手段を、高度な分析とデータサイエンスに適した、検索可能で業務にすぐ利用できるセマンティックレイヤーで提供しています。最新のデータ仮想化プラットフォームが役立つクラウドのユースケースには、次のようなものがあります。
- クラウドでのSaaS APIの抽象化 : 従来型のレポートツールを任意のSaaS APIに対応させます。例えば、SQLでSaaSデータを処理する場合、データ仮想化でSaaS API(通常はRESTサービス)をリレーショナルモデルの一部として抽象化し、クラウドのデータが複製されてデータセンターに戻されることを防ぎます。
- クラウドソースに対する統合セキュリティ : データ仮想化はクラウドへのゲートキーパーとなり、限られたセキュリティ機能しかないクラウドソースを拡張します。これによって、外部ソース向けのシングルサインオン(SSO)を実現したり、このような機能がデフォルトでは提供されていないクラウドソースと、ローカルユーザーおよびローカルグループ(LDAP、Active Directory)を統合したりできます。また、列レベルや行レベルの制約、マスキング、暗号アプライアンスとの統合など、きめ細かなセキュリティも実現できます。
- クラウド移行の簡素化、データウェアハウスのモダナイゼーション、データレイクの作成、論理データウェアハウス : データ仮想化は、内部データソースと外部データソースの両方に対する共通アクセスポイントとなり、単一のスキーマを提供して複製を不要にします。仮想データレイクにより、種類や場所にかかわらず、ソース間でのデータの組み合わせが可能になり、異種ソース間に共通のセマンティックモデルを定義できるようになります。
- クラウドにおける機械学習/人工知能(ML/AI)とデータサイエンス : 分析プロジェクトやMLプロジェクトのために適切なデータセットの検索とタグ付けを行うデータカタログ機能を活用できるようになりました。また、これによりデータサイエンティストは、仮想データレイクに保存されているデータとデータ仮想化レイヤーを組み合わせることで、クラウドの柔軟性を生かし、全てのデータアクセスでガバナンスとセキュリティを確保するデータリネージュ機能を使用しながら、迅速かつ簡便にモデルを作成できるようになります。
クラウドでのデータ仮想化の事例--データウェアハウスのモダナイゼーションとクラウドでの高度な分析
Prologisは1983年に創業され、効率的な物流不動産ソリューションをグローバルに提供しています。19カ国で1600人の従業員を抱え、1110億ドル以上の資産(19カ国で7億9700万平方フィート以上)を管理しています。
同社は、さまざまな不動産を世界中で管理しているため、膨大な量のデータがさまざまな言語で生成され、地理的に分散したさまざまなソースに保存されています。業務を効果的に行うために、この膨大な量のデータを日々統合する必要があります。
Prologisは長年にわたり、データベース群、統合サーバー、レポートサーバーが稼動する27台のサーバーから構成されるグローバルなオンプレミスのデータウェアハウスを使用して、データを管理してきました。変更されたデータは専用システムでソースシステムから取得し、データウェアハウスに送信していました。ソースデータをデータウェアハウスに移動するためには、主にETL用のサーバー群を使っていました。
同社は、データインフラストラクチャーのモダナイゼーションを行ってクラウド機能を取り込むだけでなく、効率化によりデータ分析を推進しようと考えていました。しかし、既存システムの中断により過度のダウンタイムを発生させるモダナイゼーションに取り組むつもりはありませんでした。
そこでPrologisは、クラウドベースのデータウェアハウス「Snowflake」を既存のオンプレミスのデータウェアハウスに併設しました。また、データインフラストラクチャーのさらなる強化のために、データ仮想化を使用する「Denodo Platform」を導入しました。
Prologisのデータアーキテクチャー
これにより、種類の異なる無数のデータソースから新規の統合リポジトリーにデータを複製することなく、リアルタイムにデータが統合されます。Denodo Platformは、データソースとデータコンシューマーとの間のインテリジェントなデータアクセスレイヤーとなって、アクセスの複雑さからデータコンシューマーを切り離します。これによって、オンプレミス、クラウド、その他のソースにわたってデータへのリアルタイムアクセスを実現する、論理データウェアハウスのアーキテクチャーを確立しました。
Prologisは、Denodo PlatformがSnowflakeへのスムーズな移行を容易にしたことを高く評価しています。また、移行を完了して論理データウェアハウス構成を実現すると、クラウドでの分析を推進するDenodo Platformの能力を高く評価するようになりました。
- 小川直樹
- Denodo Technologies シニアマーケティングマネージャー
- プログラマーから始まり、大手外資系ソフトウェアベンダーにて、ストレージソフトウェアを中心にプリセールス、プロダクトマーケティング等を担当し、2008年よりジュニパーネットワークスにてソリューションマーケティングマネージャー、2015年からはSonicWALLにてフィールドマーケティングマネージャーなど歴任。2019年からDenodo Technologiesにて現職。