primeNumberは、データ統合自動化サービス「trocco」に「データリネージ機能」を追加した。今後の機能強化が予定されている「メタデータ管理機能」の第一弾となる。
troccoは、従来ITエンジニアが手作業で行っていたデータ統合プロセスを自動化するSaaS。「メタデータ」は、データの意味・状態・依存関係といったデータに付随する情報のことで、分析者がデータを理解したり、素早く正確に分析したりするためには「メタデータ管理」が重要になる。「メタデータ管理」は注目が集まる一方、支援サービスがほとんどなく、多くの企業は未だに手作業で管理を行っていることが多い。
データリネージ機能画面イメージ
troccoは、データ統合を行う際にメタデータを含むさまざまなデータへの接続を行うため、メタデータにアクセスして管理しやすいという。データリネージ機能は、データエンジニアが障害発生時に影響範囲を迅速に確認したり、分析基盤の全体像を簡単に把握・共有したりする作業に利用する。troccoの管理画面上で簡単にデータ同士の依存関係を把握・管理できるようになる。
データセット名、テーブル名などでフィルタリング可能
ハイライト機能
データリネージ機能はデータセット名、テーブル名などでフィルタリングし、必要なデータリネージ(データ処理の経路)のみを取り出し、見やすくすることができる。
またデータの処理方法が「追記」(既に登録されているデータに加え、新規データを追記する)か「洗い替え」(既に登録されているデータを全削除の上、新規データに洗い替える)かをハイライトで判別する機能がある。これにより、元データが破損した際にも、元データのみを修正すれば良いのか、元データと追記先データの双方を修正する必要があるのか瞬時に確認できる。
primeNumberでは今後、メタデータ管理機能の追加として、各種データソースから、テクニカルなメタデータ(フィールドの日本語表記名や説明、制約情報など)を自動収集し、「Google Cloud Data Catalog」などのメタデータレポジトリー(保管庫)に統合する機能などを予定している。
またビジネスメタデータ(売り上げが税込か税別かといった、ビジネスルールに関わるメタデータ)を入力・管理しやすい画面や、ビジネスメタデータが更新されていない場合のサジェスト・アラート機能などの追加も実施する予定だ。