はじめに
デジタル変革(DX)や生成AIの普及が進む中で、企業が競争力を維持・向上させるためには、データの活用とそれを支えるデータ基盤の整備がますます重要になっています。AIの分野では「Garbage in, Garbage out(ゴミを入れればゴミが出る)」という言葉が示すように、データの質が成果に大きな影響を与えます。不正確なデータや品質の低いデータを使うと、業務で誤った判断をしてしまう可能性があります。そのため、データ基盤の重要性はさらに高まっています。
近年、クラウドの利点を最大限に活用したデータ基盤として「データクラウド」の導入が注目されています。データクラウドは従来のデータ基盤とは異なる特徴を持ち、理解しておくべき重要なポイントが幾つかあります。
この連載では、データクラウドについて企業や組織の最高情報責任者(CIO)や情報システム部長の皆さんが押さえておくべき重要な点を、以下の4つのテーマに沿って解説します。データクラウドの基本的な概念や構造を理解し、実際に導入する際に役立つ基本知識を身につけていただければと思います。
- 第1回:クラウドネイティブなデータ基盤設計とは
- 第2回:企業に蓄積されたデータをクラウドで活用するメリット
- 第3回:全社的なデータ活用を進めるためのマネジメント基盤の構築
- 第4回:データクラウド導入検討のプロセスと意思決定
クラウドネイティブなデータ基盤設計とは
クラウドネイティブなデータ基盤設計とは、クラウド環境に最適なデータ基盤を構築するためのアプローチです。クラウドの特性を生かし、スケーラビリティーや可用性、柔軟性、コスト効率を最大限に引き出します。従来のオンプレミス基盤やIaaS基盤とは異なり、設計時に考慮すべきポイントがありますので、以下に解説します。
クラウドネイティブなデータ基盤設計の考慮点
スケーラビリティーと拡張性
従来のオンプレミス/IaaS基盤は、事前にインフラのサイズを決定し(サイジング)、実装後は可能な限りそのサイズを維持しながらユースケースやワークロードの変更に対応するのが一般的でした。しかし、この方法では新たなユースケースやデータ量の増加に対応しにくく、リソースの競合が発生するという課題がありました。
クラウドネイティブなデータ基盤では、小規模から始め、必要に応じてスケールアップやスケールアウトが可能です。データ量やワークロードが増加した場合、クラウドのスケーラビリティーを活用して基盤を拡張できます。最適な拡張を実現するには、基盤の利用状況をモニタリングし、適時にリソースを追加することが重要です。
スケーラビリティーと拡張性
セキュリティ・高可用性
クラウドネイティブなデータ基盤を安全に利用するには、ガバナンス、セキュリティ、高可用性を考慮する必要があります。オンプレミス/IaaSの基盤では、設計時にこれらの要素を自社で考慮し、セキュリティ製品の組み込みや冗長化を行う必要がありました。
一方、クラウドネイティブなデータ基盤の設計では、利用するクラウドデータ製品が取得しているセキュリティの認証(例:FedRAMP、 ISO27001)や高可用性機能(例:マルチアベイラビリティーゾーン〈AZ〉、クロスリージョン)を確認し、自社の要件に合致するかを見極める必要があります。全ての要件を満たすことが難しい場合は、複数の製品を組み合わせたり、独自に補完したりすることも選択肢となります。
また、グローバルなデータ基盤を構築する際には、各国の法律に従った設計も必要です。特に、各国のデータ保護法(例:一般データ保護規則〈GDPR〉)に準拠するためには、データの所在を考慮した設計が求められます。例えば、GDPRに対応する場合、個人データを特定の国に留めたり、マスキングしたりする設計が必要です。
コンプライアンスの認証と認定
メンテナンス/保守
データ基盤を構築した後も、機能を維持するためには定期的なアップデートやメンテナンスが必要です。オンプレミス基盤の時代には、数年ごとにインフラやソフトウェアの更新が必要で、保守費用が発生するのが一般的でした。
クラウドネイティブなデータ基盤では、ソフトウェアやインフラのアップデートが自動で行われるため、従来のオンプレミスに比べてコストや手間を節約できます。データ基盤は進化し続け、新しいデータが追加されるため、データの検索速度(クエリーパフォーマンス)を維持し、最適化するためのチューニングが重要です。ビッグデータの増大・多様化により、チューニングの容易さも保守時の重要な考慮点となります。
また、過去データのバックアップについても、クラウドネイティブなデータ基盤ではタイムトラベル機能を活用して効率的に保存できます。これらの機能を考慮することも設計時には重要です。
オンプレミスからPaaS/SaaSへの移行により、自社でメンテナンスや保守すべき項目が大幅に減少します。ライセンスコストが安くても、メンテナンスや保守に多くの人員が必要なデータ基盤では、総所得コスト(TCO)が高くなり、結果として高コストな基盤になることに注意が必要です。
インフラ設計やメンテナンス負荷の違い
ガバナンスとデータ戦略
クラウドネイティブなデータ基盤では、多くのユーザーが複数の事業部門からデータにアクセスすることが求められます。グローバル展開する場合には、さらに複雑なアーキテクチャーパターンの考慮も必要です。この際、データ基盤設計で重要なのはアクセス権の管理によるガバナンスです。営業やマーケティング、人事などの部門が扱う個人情報や従業員情報へのアクセスを適切に制御することで、情報漏えいのリスクを軽減できます。
これを実現するためには、アクセス権の管理がしやすい基盤設計が重要です。個人情報などのデータがどこに伝搬され、どのように使用されているかを把握し、ユーザーに応じてデータをマスキング/トークン化して保護するクラウド製品を選ぶことが必要です。
また、データガバナンスはデータ戦略と密接に関連しています。機動力のある分析を行いつつ広範なデータにアクセスさせる場合には、最小限の分析者に広範なデータへのアクセスを許可するか、安全性を重視してアクセスできるデータを最小限にし、広範なユーザーにデータ分析を行わせる環境を整えるかのアプローチが一般的です。
RBACによるアクセス