実践ビッグデータ

データ分析プロジェクト失敗回避のために--「前処理」実践法 - (page 3)

小副川 健(富士通)

2015-04-22 07:00

自動化が難しいクレンジング作業

 データ加工は技術で効率化できる部分が大きいが、データ検証やクレンジング作業は、自動化はなかなか難しいと感じている。ここからは、数値フィールドとカテゴリ値フィールドに対してデータ検証のポイントの一部を紹介する。

 数値フィールドに対しては無効な値や極端に外れた値が入っていないかなどをチェックしている。

 実際に筆者が目にした無効値として、「**」、「NA」、「-999999」などのわかりやすいものから、「16777215」(2の24乗引く1)といった、一見普通の数字に見えるものまで、さまざまなものがあった。

 極端な値は、エラーなどに起因するデータとしてあり得ないほど大きい(小さい)値であり、統計学でいう外れ値とは、やや意味が異なる。センサから取得されたデータで特によく目にする。

 どちらも、データのユニークな値とそれぞれの出現頻度、値の範囲などを見ることでチェックしている。この値を無視するか補完するかは、分析の目的に合わせて決めている。

 カテゴリ値は、データの設計書に値の一覧が書かれていることが多いが、実際に見てみると値として想定されていないものが入っていることが多いため、毎回中身を全て見ている。

 また、JANコードや各種IDなど、桁数の多い数字のカテゴリ値データが、データを受領するまでに経た処理の間に浮動小数表記(4.97163E+12などの表記で、下位の桁が落とされてしまっている)になっていることもあった。表計算ソフトなどで読み込み、上書き保存してしまうとこの状態になりやすく、下位の桁がなくなってしまうと復元できないので注意が必要である。

 また、商品名称や会社名、住所などが手入力で入力されている場合は「表記ゆれ」の問題が頻発する。会社名の(株)表記のゆれ(○○株式会社と○○<株>)や、英数字の大文字小文字、全角半角の不統一がよく見られる。この、表記ゆれを正す操作を「名寄せ」と呼び、ある程度名寄せを簡単にするツールなども開発されてはいるが、ドメイン知識や人間の判断が必要な場面もまだ多い。

 これらの検証に対しても、データのユニークな値と、それぞれの出現頻度を見ている。結局人の目で見るのが確実で、見るべき量を最小限にする方向に努力しているというのが現状である。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

自社にとって最大のセキュリティ脅威は何ですか

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]