モデルの検証
モデル構築は、過去データに基づいて構築することが一般的であるため、バックテストと呼ばれることもある。
例えば、2015年12月末までのデータを用いてモデルを構築し、2016年1月~8月までのデータを使って、モデルの精度を検証するケースや、特定エリアのデータを用いてモデルを構築し、他エリアのデータを当てはめて検証するケースなど、構築するモデルの特性によって、検証の仕方はさまざまである。
データマネジメント
OSSを活用したアナリティクスにおいては、マルチプラットフォームで分析環境を構築することになり、さまざまなデータソースからデータが収集され、加工されていく。
当然ながら、それらの処理が正しく行われているかどうかを管理する仕組みも必要となっていく。商用ベンダーのデータマネジメント関連製品には、マスターデータマネジメント、メタデータマネジメント、データモデルなどあるが、OSSでも同様に整備が進みつつあり、OSSでのアナリティクス環境は進化を続けている。データマネジメントは、アナリティクス活動のアセット化には欠かせない要素である。
アナリティクス活動のアセット化
先に挙げたデータマネジメントは、第3回で解説した作業負荷の高い「データ整理・加工」の管理に加えて、データモデルという重要なポイントも含まれる。データモデル(本稿の“モデル構築”のモデルとは異なる)は、データ整理・加工を効率化するために有効な方法論であり、データをアセット化するという行為そのものである。
データモデルの考察
・データ整理・加工におけるデータモデル
ソフトウェアの工学的な定義はここでは省略するが、データモデルの基本的な概念は、現実世界におけるビジネスをデータの世界に写しとったものと言える。リレーショナルデータベースの世界では、ビジネスに登場するモノ、コトにあたる“エンティティ”と言うデータ項目と、それらの関係性を表す“リレーション”を正規化等を施しながら整理して、データを重複して蓄積することなく、かつ効率的に検索できるよう、概念モデル、論理データモデル、物理データモデルの3段階で実装される。
データモデルの構築には、業務、データ、データベース技術の理解が必要となる。最も効率的な方法は、全体像である概念モデルを作成した後に、データベース設計時から少しずつ論理データモデルと物理データモデルを作成することである。また、すでに存在するさまざまなデータに対して、データモデルを構築し移行する作業は、とても労力を要する。データモデル自体、ノウハウやリファレンスモデルを提供できる企業は世界的にも見ても少ない。
・アナリティクスにおけるデータモデル
アナリティクスにおけるデータモデルの考え方や手法は、業務系システムのデータモデルと同じであるが、どんな目的で、どのようにデータを理解、整理するかにより異なるデータモデルが構築される。つまり、業務を実施するために必要なデータの他に、アナリティクスをするために必要なデータ項目、外部データなどが追加されることが容易に想像できる。
・競争力の源泉としてのアナリティクス
短期的には、新たなデータ、新たなモデル、新たなテクノロジーをいち早く自社に取り込み、今までにないアナリティクスを創出することで、競合他社よりも先に新たな洞察(インサイト)を導き出し、具体的な利益拡大策につなげることで、差別化を図ることができる。
仮にアナリティクスへの取り組み状況が各社に差がない場合は、長期的には、アナリティクスのノウハウを社内でいかにアセット化するかが差別化ポイントになるだろう。アセット化は、データ項目とデータ量のそれぞれの充実度、そしてデータのクオリティも重要である。つまり、データマネジメントに真摯に取り組み、データを経営活動の資産として適切に管理できているかが、競合他社との大きな差別化の要因となる。
データマネジメントなどアセット化の取り組みがない状態でもアナリティクスを活用することにより一定の成果が得られ、その活用度合いに比例した成果が得られる。