情シスから始まるデータ分析

データサイエンティストとマーケが喜ぶデータ基盤の作り方

安部晃生

2016-02-18 07:30

　データ分析にはどのような基盤を構築すれば良いのかーー。データ分析を考える上でまずは、ビジネス情報はどのようにデータとして存在するのかを考えてみよう。小規模レベルでは逐次入力されるスプレッドシートに、ある程度の規模のビジネスであれば自動化されたシステムを通じて入力されるリレーショナルデータベース（RDBMS）に、日々のビジネス活動とともに蓄積されていくものである。

　どのような形式であれ、ほとんどの企業がビジネス情報をデータとして蓄積しているはずだ。本稿ではスプレッドシートやRDBMSといったソフトウェアの違いを特に区別せず、蓄積されたデータの集合のことを“データベース”と呼ぶことにする。

　大概の企業がデータベースを持っている一方、世の中のデータ分析を軸としたデータ活用の機運の高まりに反して、データ分析に着手できている企業が少ないと感じる。データベースの存在とデータ分析の間には、いったいどのようなギャップが存在しているのだろうか。データ基盤の作り方を考えてみよう。

蓄積されているデータは分析に利用できるか

　そもそもデータを蓄積する目的とは何であろうか。その目的はデータ活用だが、それは業務効率化を目指したデータ蓄積である。業務効率化のためのデータとは、低コスト化や業務速度を向上させることを指す。

　したがって業務上問題がない以上はデータに品質を求める必要がない。品質を求めて運用上コストを増大すると、データベースとしての低コスト化の役割に反してしまう。

　一方、データ分析が要求する「データ」は、データが持つ骨子を抽出するため、品質が要求される。データ分析のためのデータとは、業務効率化のためのものとは性質が異なることを認識してほしい。業務効率化のためのデータがコスト削減のための“守りのデータ”とするならば、データ分析向けのものは利益創出のための“攻めのデータ”といえる。

　データ分析が要求するデータの品質とは、データが“そろっている”ことを指す。例えば人名について、漢字表記でもカナ表記でも同一人物を指すケースがある。このシステムは漢字表記であるが、他方ではカナ表記を採用していることがままある。運用上ではどちらの表記であっても問題なく業務は達成できるだろう。

　ところが、仮に分析により、これらのシステム間のデータをまたいで個人を紐付けたいとしたらどうだろう。システムを超えてIDが割り振られているならそれをキーに紐付ければよいが、異なるシステムで統一されたIDが存在するなどまれだ。そうなるとシステム間の個人の照合は困難を極める――。いわゆる名寄せの問題である。名寄せが適当な状態で分析を実施しても十中八九意味をなさない。また、名寄せ以前の問題として、存在しえないデータがなぜかデータベースに入っていたり、半角全角や送り仮名のような表記揺れといったデータの非整合性が見られたりと、データクレンジングがないまま分析を実施しても散々な結果を得ることになる。