その利点は次のようなものだ。MapR-ESのトピックでプリプロセッサを設定しておけば、MapR-ESに入ってくるすべてのデータを監視し、認識可能なメタデータを「MapR-DB」のドキュメントデータベースに取り込むとともに、メタデータの変更を同データベースに記録できるようにもなる。これにより、メタデータのカタログ化が可能になるうえ、派生データセットの生成も同様に管理した場合、すべてのMapR-ESイベントが保存されるとともに、イベントを「再生」するだけで、データリネージュを包括的に確定できるようになる。
パートナー企業の役割
このためMapRは、メタデータとデータリネージュ情報を取得するための大元となるインフラを提供する。ただ、データレイクユーザーがデータセットの検索やタグ付けを行ったり、どれが認証されているかを確認したり、他のユーザーによる格付けを調べたりできるようなデータのカタログ化機能は提供しない。
ここでパートナー企業とその製品の出番がやって来る。Waterline DataとCollibraはそれぞれMapRの戦略的なパートナーとして、データのカタログ化機能とデータリネージュ機能を提供している。また、Cask Dataもパートナーとなっており、「Cask Data Application Platform」(CDAP)によってさまざまなビッグデータコンポーネントに対する統合APIのほか、メタデータの検査や監査のための特定APIを提供している。
これらの製品は単独では、入力されたものをカタログ化するだけだ。しかし、皆が使用している限り(CDAPの場合にはそれを使ってコーディングする限り)うまく機能する。実質的に自主管理制度が施行されていると言ってもよいだろう。
人手による作業
MapR-ESのガバナンス関連機能を組み合わせることで、物事の統制化は進むはずだ。しかし、それには綿密な実装作業が必要だ。MapRの「Quickstart Solutions」(すぐに手を付けられるソリューション)というデータガバナンスに関するページには、顧客の実装を正しいものに保証するためのプロフェッショナルサービスに関する記述が含まれている。こういったサービスは、データのインジェスチョンを単なる選択肢として実装するのではなく、MapR-ES経由で必須とするようなセキュリティや権限のコンフィギュレーションを含めることになる。
このような形ですべてをまとめ上げれば、顧客は自らのデータレイクに関するデータガバナンスを実現できるようになる。つまり、メタデータとデータリネージュ情報を捕捉するプリプロセッサが埋め込まれたMapR-ESを通じてインジェスチョンが行われるよう、強制されるわけだ。これによって、システムに取り込まれるすべてのデータは積極的に監視、カタログ化される。これは長所と言える。