情シスから始まるデータ分析

データサイエンティストとマーケが喜ぶデータ基盤の作り方

安部晃生 2016年02月18日 07時30分

  • このエントリーをはてなブックマークに追加

 データ分析にはどのような基盤を構築すれば良いのかーー。データ分析を考える上でまずは、ビジネス情報はどのようにデータとして存在するのかを考えてみよう。小規模レベルでは逐次入力されるスプレッドシートに、ある程度の規模のビジネスであれば自動化されたシステムを通じて入力されるリレーショナルデータベース(RDBMS)に、日々のビジネス活動とともに蓄積されていくものである。

 どのような形式であれ、ほとんどの企業がビジネス情報をデータとして蓄積しているはずだ。本稿ではスプレッドシートやRDBMSといったソフトウェアの違いを特に区別せず、蓄積されたデータの集合のことを“データベース”と呼ぶことにする。

 大概の企業がデータベースを持っている一方、世の中のデータ分析を軸としたデータ活用の機運の高まりに反して、データ分析に着手できている企業が少ないと感じる。データベースの存在とデータ分析の間には、いったいどのようなギャップが存在しているのだろうか。データ基盤の作り方を考えてみよう。

蓄積されているデータは分析に利用できるか

 そもそもデータを蓄積する目的とは何であろうか。その目的はデータ活用だが、それは業務効率化を目指したデータ蓄積である。業務効率化のためのデータとは、低コスト化や業務速度を向上させることを指す。

 したがって業務上問題がない以上はデータに品質を求める必要がない。品質を求めて運用上コストを増大すると、データベースとしての低コスト化の役割に反してしまう。

 一方、データ分析が要求する「データ」は、データが持つ骨子を抽出するため、品質が要求される。データ分析のためのデータとは、業務効率化のためのものとは性質が異なることを認識してほしい。業務効率化のためのデータがコスト削減のための“守りのデータ”とするならば、データ分析向けのものは利益創出のための“攻めのデータ”といえる。

 データ分析が要求するデータの品質とは、データが“そろっている”ことを指す。例えば人名について、漢字表記でもカナ表記でも同一人物を指すケースがある。このシステムは漢字表記であるが、他方ではカナ表記を採用していることがままある。運用上ではどちらの表記であっても問題なく業務は達成できるだろう。

 ところが、仮に分析により、これらのシステム間のデータをまたいで個人を紐付けたいとしたらどうだろう。システムを超えてIDが割り振られているならそれをキーに紐付ければよいが、異なるシステムで統一されたIDが存在するなどまれだ。そうなるとシステム間の個人の照合は困難を極める――。いわゆる名寄せの問題である。名寄せが適当な状態で分析を実施しても十中八九意味をなさない。また、名寄せ以前の問題として、存在しえないデータがなぜかデータベースに入っていたり、半角全角や送り仮名のような表記揺れといったデータの非整合性が見られたりと、データクレンジングがないまま分析を実施しても散々な結果を得ることになる。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

この記事を読んだ方に

関連ホワイトペーパー

連載

CIO
シェアリングエコノミーの衝撃
デジタル“失敗学”
コンサルティング現場のカラクリ
Rethink Internet:インターネット再考
インシデントをもたらすヒューマンエラー
トランザクションの今昔物語
エリック松永のデジタルIQ道場
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「展望2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
エンドポイントセキュリティの4つの「基礎」
企業セキュリティの歩き方
サイバーセキュリティ未来考
ネットワークセキュリティの要諦
セキュリティの論点
スペシャル
エンタープライズAIの隆盛
インシュアテックで変わる保険業界
顧客は勝手に育たない--MAツール導入の心得
「ひとり情シス」の本当のところ
ざっくり解決!SNS担当者お悩み相談室
生産性向上に効くビジネスITツール最前線
ざっくりわかるSNSマーケティング入門
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
Microsoft Connect()
HPE Discover
Oracle OpenWorld
Dell Technologies World
AWS re:Invent
AWS Summit
PTC LiveWorx
吉田行男「より賢く活用するためのOSS最新動向」
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
日本株展望
企業決算
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]