銀行・保険・証券など金融業界が注目する、ビッグデータの信頼性を向上させるデータガバナンスとは

データガバナンスを改善するアプローチ

　データガバナンスを導入構築するアプローチには、次のように、いくつかのステップがある。

※クリックすると拡大画像が見られます

　「これらのアプローチに従って、自分たちで環境整備を始めているお客様もいらっしゃいますし、IBMでもサービスとして支援しています」(時光氏)

　データガバナンスを整備するために、IBMでは、いくつものソリューションを提供している。

　たとえば、組織全体でデータを適正に活用するためには、データの提供元と利用先の両方が、データの正確な用語や意味を共通化しておくことが重要である。これは、ビジネス側の組織とテクニカル側の組織との間で合意を取っておく必要がある。そのために、組織やグループ会社などで異なるデータ名や実施手順を、組織を横断して統一的に管理するビジネス用語辞典ツールを提供しており、BIツールや表計算ツールからも参照できる。

　また、データの理解を深めるためには、ソースデータ分析ツールを提供している。このツールでは、テーブルの構成やデータ間の関連性などを分析したり、データの分布状況を確認したり、ユーザーが定義したルールと異なるデータが入っていないかチェックすることができる。

　「データを修正しようとする場合、下流の使うところで直そうとすると、10倍から100倍のコストがかかるとも言われています。できるだけ上流で、データを入れる時に直すのが良いのですが、そのためにも、データの品質を確認できる仕組みを整備していくことが重要になります」(時光氏)

　汚れたデータを変換して分析しなければならない場合のためには、データをきれいに設計しなおすためのデータ設計ツールやデータ変換のためのETLツールを提供している。データ変換を手組みで作るのは膨大な手間とコストがかかるが、最初からGUIベースの自動化ツールを使うことで、どこからデータが来たのか、システムをまたがって可視化できる仕組みを備えられるのだ。また、このETLツールはHadoopなどのビッグデータ基盤との連携も可能となっている。

　そして、これらのツールについて、1ヶ所で統合管理できる仕組みも備えており、データの出所を見える化するメタデータ管理の仕組みが提供されている。

これまでのデータ管理基盤との違い

　最後に、これまでのデータ管理基盤と、IBMのソリューションで実現したデータガバナンスの違いを見てみよう。

　従来のデータ管理基盤は、マスタデータを統合したり、ETLツールやデータウェアハウスにより、データ管理基盤を構築したりするもので、データをつなぎ合わせて見えればよいといったものだった。確かに、それは大きな進歩だが、データの種類が増加したり、データを見ようとする軸が変化すると、データ管理基盤を大きく作り直す必要があった。スピードやスケーラビリティの点でも制約があった。

　一方で、IBMによるデータガバナンスでは、データを見える化して管理・運用する手段やツールを充実させている。たとえば、ユーザーの要望に応じて様々なデータソースを追加し易くなっていたり、そのデータがどこから来たのか確認する手段を用意したり、分析対象となるデータをカタログ化して活用し易くするといった具合だ。将来的には、ユーザー自身がビッグデータを活用して、顧客の本音といったインサイトに迫るといった可能性も広がってくるだろう。

　ほぼリアルタイムで膨大なデータを入手できるビッグデータ時代において、高い品質でデータを供給できる"データの貯水池"(データリザヴァー)を整備してデータを活用することは、確実に、企業の競争力の源泉になっていくだろう。