前回(「で、結局BIって何なのさ?」と聞かれたときに困らない基礎知識)は、データを活用するビジネスインテリジェンス(BI)の取り組みが企業の競争優位につながることについて理解した。今回は、BIの取り組みに欠かせない道具である「BIツール」について見ていくことにしよう。
「BIに取り組むための道具」というと、何かものすごく大規模で高価なものを想像してしまうかもしれないが、実は私たちの身近にも結構ある。極めて小規模な分析なら紙と鉛筆を使って計算することは可能だし、データをインプットして集計結果を個人的に検討するのであれば、Excelなどの表計算ソフトが手軽で便利だ。
しかしこれが企業規模になると話は別だ。企業が保管するデータは、いまやテラバイト(ギガバイトの1024倍)あるいは、ペタバイト(テラバイトの1024倍)の規模に達している。このような大規模なデータを表計算ソフトで扱うのは現実的ではない。
そのうえ、膨大なデータの中には、重複したデータや断片化したデータ、ときには事実ではないデータなども含まれていることがある。そうした質の良くないデータを「ダーティデータ(Dirty Data)」と呼ぶ。どのように大量のデータを管理し、効率的に活用するのかは、いまだに議論の的となっている、かなり難しい問題だ。
データを起点にBIアーキテクチャを眺めてみる
組織に属する私たちがBIに取り組むためには、大量のデータを手作業で収集したり、整理したりすることは困難だ。そこで、データを機械的に(コンピュータを使って自動的に)収集し、分析(できれば自動分析)して、その結果をみんなで共有し、行動していけるようなIT環境が必要となる。
こうしたIT環境を整備する人のことを「ITアーキテクト」と呼ぶ。ITアーキテクトが、システムやアプリケーションを用意して、BIへの取り組みを可能にする仕組みを整える。そうした仕組みの構造自体を「アーキテクチャ」と呼び、BIを実現するためのアーキテクチャのことを「BIアーキテクチャ」と呼ぶ。
一般にBIアーキテクチャは、データを中心にして考えることが多い。この連載(BIによるデータ活用ことはじめ)で見てきたように、BIは「正しいデータから得られたインテリジェンスを基に適切に意思決定を行う」ことが重要であるからだ。データを起点に見てみると、BIアーキテクチャは次のような要素から構成される。
さて、各要素について簡単に見ていこう。
最初の「収集」のプロセスにおいて、大変悩ましいのがデータの「質」だ。すでに述べたように、大量にデータがあったとしても、その質が良くなければ適切な意思決定を行えない。質の良いデータを収集することが大切だ。そこでまず、どのようなデータを集めるべきかを明確にし、ERPシステム(基幹業務システム)などから、できるだけ質の良いデータを収集する。