業界各社はついにデータガバナンスに目を向けるようになり、一連の新機能やオープンソースプロジェクト、商用製品を市場に投入するようになっている。また、全社をあげて取り組む企業も出てきている。ただこれまでのところ、ソリューションは断片的なものにとどまっている。このような状況のなか、MapR Technologiesはより包括的なアプローチを採ろうとしている。
データガバナンスとは、データセットの保有状況やそれらのアノテーション(注釈)、正確さや正統性、品質の評価、そして適切なセキュリティの確保に関する統制についてであり、業界が注力すべき重要な分野だ。従来型のデータベースの世界では今まで長きにわたって、データの抽出・変換・ロード(ETL)や、データ品質管理、マスターデータ管理を含むエンタープライズ情報管理(EIM)によってこういったニーズに対処してきているが、データレイクの世界ではまだそれほど熱心に取り組まれてはいない。
データをカタログ化する製品や、データ来歴(リネージュ)のための製品も確かにある。また、さまざまなセキュリティ/アクセス制御ソリューションやメタデータ管理システムもある。Clouderaは「Cloudera Navigator」という製品を有しており、Hortonworksの「Data Governance Initiative」プロジェクトの中核に位置付けられている「Apache Atlas」というオープンソース製品(現在はインキュベート段階)もある。さらに、アナリティクス製品のなかには、顧客がガバナンス要求を満足させるために他のベンダーやプラットフォームを導入しなくても済むような独自のガバナンス機能を提供しているものさえある。
MapRは8月、独自のデータガバナンスイニシアティブを発表した。これはアーキテクチャ面での興味深いアプローチと、数社との戦略的なパートナーシップ、それらすべてに沿ったサービスから構成されている。以下ではまず、MapRによって発表された製品について解説した後、ビッグデータの世界におけるデータガバナンスの状況を解説したい。
プリプロセッサ
少なくとも筆者の目から見ると、MapRのアプローチは技術的な側面において、かなり斬新で巧みに映る。同社は規範的な姿勢を取り、すべてのデータのインジェスチョン(データの取得/取り込み/加工)は、「Apache Kafka」のAPIをベースとしたイベントベースのデータインジェスト処理向けのパブリッシュ/サブスクライブ型プラットフォームである同社の「MapR Event Streams」(MapR-ES:以前は「MapR Streams」という名称だった)を通過するようにすべきだと顧客にアドバイスしている。