実践ビッグデータ

データ分析プロジェクト失敗回避のために--「前処理」実践法

小副川 健(富士通) 2015年04月22日 07時00分

  • このエントリーをはてなブックマークに追加

 今回は、データの「前処理」について話そうと思う。

 前処理、と本稿で呼ぶのは、機械学習や可視化の前の処理すべてで、具体的には抽出や集計などの「データ加工」や「データ検証」のことを指す。

 前処理は、これが結果に直結するというものではないため、データ活用事例の紹介記事などで触れられることもまずなく、分析業務に直接携わる者でなければその存在を意識することもないのではないだろうか。

 ところが「データ分析業務は8割が前処理」と揶揄(やゆ)されることがあるほど、分析業務における前処理の比重は大きい。また、前処理が終わらなければ機械学習などの本格的な分析を始めることができないという構造もあり、分析プロジェクトのボトルネックに、容易になりうるのだ。

 統計処理や機械学習に比べて単純な作業が多いせいか、あまり分析に必要なスキルとして一般に認知されていないと筆者は感じているが、実際には前処理はスキルが必要で、それ次第では(特にデータ加工の部分に関して)前処理にかかる時間を圧倒的に短縮できる。

 扱うデータソースによって使えるソフトウェアや知識も異なるものが要求されるし、巨大なデータをさばくためにはデータベースや大規模並列分散環境を整えておく必要もあるが、準備とスキルとやり方次第で、前処理に掛かる時間はかなりコントロールできるようになるというのが筆者の主張である。

前処理は極めて重要

 本稿では、データ加工や検証のための典型的な処理について、主にこれからデータ分析を始めるチームを対象に説明する。特に、分析のために溜めていたわけではないデータを分析する状況を想定している。

 例えば、売り上げを計算するために蓄積されていた買い物のレシートデータ(POS)を分析によってマーケティングに生かす、というような状況であるが、現在のデータ活用過渡期と呼ぶべき現在においては、頻繁に直面する状況ではないかと思う。このような場合、データが正しく蓄積されていたかどうかの検証と、蓄積に適した形のデータから分析の目的に合わせた形への加工が必要になる。

 一方で、分析の仕組みがシステムに組み込まれている場合や、蓄積用の他に分析用のデータを作って溜めているというような場合は前処理にかかる苦労は圧倒的に少なく、本稿で言うほど前処理が大変ということはないだろう。だが、現在はそうでない状況はまだまだ多く、分析を意識したデータ設計が当然になり、十分蓄積されるまでにはまだ間があると思われる。

 まずは、データ加工の典型的な処理として、テーブル形式のデータに対して、筆者のチームでよくやる処理を紹介する。

 テーブル形式のデータは、典型的にはリレーショナルデータベース(RDB)に保存されているもので、表計算ソフトで用いられる二次元配列をイメージされると良い。列方向(縦)の並びに意味(属性と呼ぶ)を持たせ、行方向(横)の並びが一つのモノを表す。列を「フィールド」、行を「レコード」とも呼ぶ。

  • このエントリーをはてなブックマークに追加

関連ホワイトペーパー

SpecialPR

  • 2/1 Oracle Java & Developers始動!

    最新のクラウド情報やテクノロジー動向をより早くより深くお伝えするために
    WebLogic Channelが生まれ変わる! すべての開発者のための情報ポータルOracle Java & Dvelopers

  • ビジネスの継続的な成長を促す新たなITのビジョン

    多くの企業においてITに求められる役割が、「守り」のコスト削減から「攻め」のビジネス貢献へとシフトしつつある。その中でIBMが提唱する新たなビジョンEnterprise Hybrid ITとは?

連載

CIO
研究現場から見たAI
ITは「ひみつ道具」の夢を見る
内製化とユーザー体験の関係
米ZDNet編集長Larryの独り言
今週の明言
「プロジェクトマネジメント」の解き方
田中克己「2020年のIT企業」
松岡功「一言もの申す」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
Fintechの正体
内山悟志「IT部門はどこに向かうのか」
情報通信技術の新しい使い方
三国大洋のスクラップブック
大河原克行のエンプラ徒然
コミュニケーション
情報系システム最適化
モバイル
通信のゆくえを追う
セキュリティ
セキュリティの論点
ネットワークセキュリティ
スペシャル
座談会@ZDNet
Dr.津田のクラウドトップガン対談
CSIRT座談会--バンダイナムコや大成建設、DeNAに聞く
創造的破壊を--次世代SIer座談会
企業決算を追う
「SD-WAN」の現在
展望2017
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
HPE Discover
Oracle OpenWorld
Dell EMC World
AWS re:Invent
PTC LiveWorx
古賀政純「Dockerがもたらすビジネス変革」
さとうなおきの「週刊Azureなう」
誰もが開発者になる時代 ~業務システム開発の現場を行く~
中国ビジネス四方山話
より賢く活用するためのOSS最新動向
「Windows 10」法人導入の手引き
Windows Server 2003サポート終了へ秒読み
米株式動向
実践ビッグデータ
日本株展望
ベトナムでビジネス
アジアのIT
10の事情
エンタープライズトレンド
クラウドと仮想化