データは「よく洗ってから保存する」
「変換」のプロセスでは、集めたデータをBIに活用できるデータに変換する必要がある。集めたデータにはダーティデータが含まれている可能性があるため、それらのデータを削除したり、補正したりする。この処理を「データクレンジング」(データ洗浄)と呼ぶ。データを管理するプロセスにおいては、このクレンジングがいちばん面倒であり、時間とコストがかかる。
そのため「ETLツール」を用いることが多い。「ETL」とは「Extraction(抽出)」「Transformation(変換)」「Loading(移行)」という、クレンジングにおける各工程の頭文字をとったものだ。
生のデータをBIで使えるようにするには、ETLツールなどを使ってデータを洗浄し、整えたり(正規化)、値が漏れている場合は補正したりする必要がある。また、組織で用いる用語の定義を統一しておくことも重要となる。例えば「取引先」という用語が、あるシステムでは「顧客」のことであったり、別のシステムでは「ビジネスパートナー」のことであったりすると不都合が生じる。
「保存」のプロセスでは、変換したデータを統合して保存する。一般に「データウェアハウス(DWH)」と呼ばれる大量のデータ処理を得意とする専用のデータベースに蓄積することが多い。また、データウェアハウスから特定のデータだけを抽出して、別のデータベースに格納する場合もある。このデータベースのことを「データマート」と呼ぶ。データマートでは、取り扱うデータ量が小さくなるため、分析処理を行いやすくなるというメリットがある。
保存のプロセスにおいては、「メタデータ」のデータベースが用いられることもある。メタデータとは、「データに関するデータ」のことであり、そのデータをどこから抽出したかといったデータソースを示すデータや、抽出したときの条件、計算式、単位などを示すデータなどがある。このメタデータのデータベースがあると、分析やデータクレンジングを行う際にたいへん有用で、データ管理を効率化できるメリットがある。
次の「分析」のプロセスでは、データ分析の結果をもとにして意思決定を行う。このとき分析や意思決定に人が介入する場合もあれば、業務プロセスに組み込んで自動化してしまう場合もある。たとえば株の売買システムなどでは、値動きをリアルタイムに察知して、特定の条件が整ったときに自動的に売買を実行するといった形で「意思決定」をプロセスの中に組み込んでいるケースがある。一般に分析には「分析ツール」が用いられる。分析ツールは、分析する対象が何かによって選択する必要がある。
「OLAP(OnLine Analytical Processing:オーラップ)」は、よく知られている分析ツールのひとつだ。意思決定の前提として立てた仮説を検証する際に用いられる。たとえば、ある原材料の価格について、生産地、時期、気象といった様々な分析軸(ディメンション)から検討できる。複数(3つ以上)のディメンションで構成されるデータベースのことを「キューブ(Cube)」と呼ぶ。ただし、OLAPを使いこなすには多少のトレーニングが必要だ。また、広範かつ大量のデータの中から数学的な規則性や相関関係を見つけ出す「データマイニング」も、よく知られている分析ツールである。
最後の「表示」は、分析結果を組織の人に知らせるプロセスだ。分析は、「分析結果に基づいて意思決定し行動を起こす」ために行うのだから、行動すべき人に結果を見せ、共有することで初めて意味を持つ。表示方法には、定型的な「レポート」や、特定の状態の時に注意を促す「アラート」、結果を車の運転席にある計器類のような形でグラフィカルに表現する「ダッシュボード」などがある。これらは、イントラネット上の企業情報ポータル(EIP)やグループウェアなどの情報共有ツールに組み込まれることもある。これらの表示ツールは「レポーティングツール」と総称されることもある。
以上、今回はBIツールについて、データを中心にしたBIアーキテクチャを眺めながら、各要素に関連するツールや用語について見てきた。もしあなたが、BI製品のカタログを手に取ることがあれば、今回説明したことを念頭に置きつつ眺めてみてほしい。各ツールの大まかな役割がイメージしやすくなるはずだ。
次回は、BIツールの最新動向について、アナリストの見解を交えながら見ていくことにしよう。