1.データウェアハウスとデータマート
基幹システムにおけるデータベースは、日常の業務において素早く正確にデータ更新するために最適化されており、分析のため負荷のかかる検索や集計処理を行う場合、日常の業務処理に支障をきたす恐れがある。また、BIでは、複数の基幹システムにまたがって保持されているデータを横断的に分析したり、過去数年間に渡るデータを対象とすることがある。このことから、BIにおけるデータベースは、基幹システムとは切り離して、複数のデータベースを統合した分析専用のデータウェアハウス(DWH:データの倉庫)を構築することが一般的となる。
データウェアハウスには数億件といった膨大な量のデータが蓄積されることも珍しくない。このまま利用者に開放した場合、システムのパフォーマンスやユーザーの分析業務効率、情報保護の観点から、問題が生じる場合がある。それを解決する手段として、データウェアハウスから部門ごとやテーマごとなど目的別に切り出したり、あらかじめ集計処理を施した比較的小規模のデータベースを構築する。この特定の分析に最適化したデータベースがデータマート(データの店舗)だ。
2.ETL(抽出/変換/ロード)処理
データウェアハウスやデータマートを構築する際、データ元となる基幹システムからデータを抽出(Extract)し、結合や変換(Transform)を行い、データウェアハウスにロード(Load)する。この一連のデータ処理がETL処理であり、BIシステムを構築する上で、最も労力を要する部分といわれている。
それは、基幹システムごとに文字コードやデータ設計が異なっていたり、使われるコード体系やフォーマット、用語が統一されていない場合があるためだ。そのバラバラな複数の基幹システムから、分析要求に対する品質と鮮度を満足する一元化したデータベース(データウェアハウス)として格納しなければならない。また、分析の内容に応じて最適なデータマートを設計/構築する必要がある。
3.データ分析/活用
狭義のBIは、データを分析し価値ある情報を導き出す部分です。ここでは代表的な手法を3つ紹介する。また、これらを実現するための基盤となる技術やソフトウェアはBIツールと呼ばれる。
3-1.データマイニング
マイニングとは、「採鉱」のことで、鉱山に見立てた大量のデータから金に値する価値のある情報を探り当てることだ。統計解析などのアルゴリズムを活用し、データベースに隠れた規則性や相関関係などを発見する「仮説発見型」の分析といえる。
代表的な手法がバスケット分析(一緒に購入する商品の組み合わせを分析する)だ。週末のスーパーでオムツとビールを一緒に購入する男性が多いというルールを発見し、売り場を隣同士にしたら双方の売上が伸びた、という有名な話もある。

3-2.多次元分析(Online Analytical Processing:OLAP)
多次元分析は、「仮説検証型」の分析といえる。分析者は、データベースに接続し、ウェブブラウザやMicrosof Excel、専用ソフトなどを利用して、仮説に基づくさまざまな視点や切り口(次元、ディメンション)で、データを集計、分析、参照し、検証する。多次元分析には次のような手法がある。
分析手法 | 概要 |
---|---|
ドリルダウン | 分析の切り口を現在の階層よりも下位の階層のデータを検索する分析 例:“全国→関東→東京”とより掘り下げて売上データを見ていく |
ドリルアップ | 分析の切り口を現在の階層よりも上位の階層のデータを検索する分析 例:“東京→関東→全国”とより大きな視点で売上データを見ていく |
スライシング | 分析の切り口の特定の値を選択してデータの絞込みを行う分析 例:特定の店舗を指定してその店舗の月別や商品別売上を見る |
ダイシング | 分析の切り口を入れ替えて異なる角度で行う分析 例:店舗別/商品別→商品別/月別→月別/店舗別 |
ドリルスルー | 集計データから基となる1件ごとの明細データを検索する分析 |
