編集部からのお知らせ
ZDNet Japanが新しくなりました!
New! 懸念高まる産業機器のセキュリティ
実践ビッグデータ

データ分析プロジェクト失敗回避のために--「前処理」実践法 - (page 4)

小副川 健(富士通)

2015-04-22 07:00

 ここまでテーブル形式の前処理について述べてきたが、文章や画像など、他の形式のデータにも、活用のニーズはあり、それぞれ特殊な前処理が必要となる。キーワードだけになるが、いくつか紹介したい。

 文章をデータとして活用するためには、日本語の文章を単語に分ける「形態素解析」や、その文法的な構造を解析する「構文解析」など、自然言語処理と呼ばれる分野の知識が必要になる。

 地理データに対しては、住所や郵便番号から、緯度経度に変換する「ジオコーディング」や、その逆の処理を頻繁に行う。

 画像をデータとして分析する際にも、深層学習(ディープラーニング)を別にすれば、ピクセルの情報から分析対象に応じた特徴量の構築に、ノウハウが必要であった。

 これらは、それぞれが独立した分野として成立しており、進歩も速い。このように、前処理にもかなり幅広い知識や技術が必要なのである。

 前処理用のツールやノウハウを蓄積し、同じデータをより速く正確に処理できるよう態勢を整えておくことは、筆者のチームの大切な取り組みになっている。

分析を意識したデータ作りを

 本稿では、データ活用と分析の前に必要な前処理について述べた。分析プロジェクトを立ち上げてしばらく、前処理の間はアウトプットと呼べるものがなかなか出てこないため、分析に取り組む側も依頼する側も、このことを勘定に入れてスケジュールを組むべきである。

 その一方で、前処理にもコツがあり、準備とスキルとやり方次第で、前処理に掛かる時間をかなりコントロールできることも述べた。

 前処理が分析プロジェクトのボトルネックになりうることは冒頭で述べたが、その時間をコントロールできるだけで、分析プロジェクトの進行は、相当見通しが立てやすくなる。決して軽視せず取り組むべきである、というのが筆者の本稿の主張であった。

 一方で、分析に使うことを意識して設計されたシステムのデータでは前処理や妥当性検証の苦労が少ないであろう。今後はそのようなシステムが増え、本稿の内容が、早々に昔話になるよう、筆者は願っている。


小副川 健(おそえかわ たけし)
博士(理学)。専門分野は数学、特に計算機代数学と計算科学。2012年より富士通株式会社にてデータキュレーターとしてデータ分析業務に従事。さまざまな業種業務のデータ分析を手掛けている。Data Visualization Japan運営メンバー。訳書に『とっておきの数学パズル』(共訳、2011年、日本評論社)などがある。

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

Special PR

特集

CIO

セキュリティ

スペシャル

ホワイトペーパー

新着

ランキング

  1. クラウドコンピューティング

    コスト削減&拡張性も、堅牢なセキュリティ&規制も同時に手に入れる方法、教えます

  2. 経営

    サブスクビジネスのカギはCX! ITIL準拠のツールをこう使え

  3. クラウドコンピューティング

    “偽クラウド”のERP使っていませんか?多くの企業のITリーダーの生の声から学ぶ

  4. クラウドコンピューティング

    RPA本格展開のカギは?「RPA導入実態調査レポート」が示す活用の道筋

  5. セキュリティ

    RPA導入時に見落とされがちな“エンタープライズレベルのセキュリティ”を紐解く

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]