情シスから始まるデータ分析

データサイエンティストとマーケが喜ぶデータ基盤の作り方 - (page 2)

安部晃生 2016年02月18日 07時30分

  • このエントリーをはてなブックマークに追加
  • 印刷

 顧客管理データのような企業自身が作り出したデータであれば、まだシステム設計レベルで改善の余地がある。ところが、これからの時代は、データ分析に利用されるデータが、政府統計やSNSのように、企業活動の外から集められる可能性がある。こういったデータを集めてなお品質の高いデータを整備するという作業は、片手間でまかなえるものではない。

 「データ分析にかかる時間の8割は前処理に費やす」――。この言葉はもともと、ウェブページは大量の価値のない情報からなっているため、80%の前処理作業が必要、という言葉に由来しているようだ。一方、前述の名寄せやデータクレンジングといった作業は、ウェブページに限らずデータ分析において大部分を占めているのは間違いないだろう。

 こういったデータの前処理は、システム統合などでやらざるを得ない場合もあり、運用上で人手によりメンテナンスされることもありうる。しかしながら、データ分析は必要に駆られて取り組む作業ではない。分析者が、人手ではあまりにも膨大なデータを前にして、分析のための前処理で手一杯になってしまうという事態もあり得る上、前処理を施すだけでは、分析のスタートラインに立ったことに過ぎないのだ。

 前処理により、きれいなデータが完成したら、データ分析の次の一手はデータを分析に適した形式にする作業である。単純な集計のような分析であれば、選択(selection)・射影(projection)・結合(join)といったRDBの基本的な操作でまかなえることもあるが、カラムを分析に適切なレベルまで分解・結合するといった試行錯誤が必要になることも多い。

 RDBの取り扱いに慣れているエンジニアには、データから知見を抽出するのに「試行錯誤」が必要であるという感覚に慣れておらず、マーケターのさまざまなデータへの要求や試行錯誤を面倒だと思うかもしれない。

 この連載の初回でも述べたように「多くのマーケティング部門がデータを自在に取り扱うことができない」ことに起因する不幸だろう。

データの巨大化にともなう専門性

 RDBのような比較的単純なデータ構造を扱うことは、実はそこまで高度なエンジニアリング技術を必要としない。マーケターであっても少しの訓練で対応できるような内容である。というのもマーケターが得意とする、Excelを代表とするスプレッドシートはRDBと同様にテーブル構造を持っているため、一旦RDBとExcelの対応がつけばあとは自分の領域でなんとか補えるまでになる。しかし世の中のデータが良いRDBだけで成り立っているかといえばそうではない。

 直近の流行の話題でいえば、FacebookやTwitterに代表されるSNSのユーザー間のつながりを表したグラフ構造であったり、各ユーザーのアクティビティを集めた自然言語データのようなものは、従来のRDBで扱いづらいデータのひとつだ。また、IoT(Internet of things = モノのインターネット)から収集されるようなセンサーデータは、デバイスのリソース制約からデータ構造こそ単純ではあるが、その後のデータ活用のための、データ間結合や集計処理を考えると、一筋縄ではいかない。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

SpecialPR

連載

CIO
教育IT“本格始動”
月刊 Windows 10移行の心・技・体
ITアナリストが知る日本企業の「ITの盲点」
シェアリングエコノミーの衝撃
デジタル“失敗学”
コンサルティング現場のカラクリ
Rethink Internet:インターネット再考
インシデントをもたらすヒューマンエラー
トランザクションの今昔物語
エリック松永のデジタルIQ道場
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「展望2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
セキュリティインシデント対応の現場
エンドポイントセキュリティの4つの「基礎」
企業セキュリティの歩き方
サイバーセキュリティ未来考
ネットワークセキュリティの要諦
セキュリティの論点
スペシャル
エンタープライズAIの隆盛
インシュアテックで変わる保険業界
顧客は勝手に育たない--MAツール導入の心得
「ひとり情シス」の本当のところ
ざっくり解決!SNS担当者お悩み相談室
生産性向上に効くビジネスITツール最前線
ざっくりわかるSNSマーケティング入門
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft Inspire
Microsoft Connect()
HPE Discover
Oracle OpenWorld
Dell Technologies World
AWS re:Invent
AWS Summit
PTC LiveWorx
吉田行男「より賢く活用するためのOSS最新動向」
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
日本株展望
企業決算
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]