実践ビッグデータ

データ分析とデータ活用のあいだ--「意思決定者」とのコミュニケーション - (page 3)

小副川健（富士通）

2014-09-18 07:00

　さて、ここで予測結果の良し悪しについて考えてみよう。

　一番の理想は当然False NegativeとFalse Positiveが0の、全問正解の場合であるが、実データでそのようなことになるのは稀であるし、ここでは詳しく述べないが、未知のデータに適合できない「過学習」という別の問題もある。

　では、誤りを許容するとして、2パターンある誤りのうち、どちらがより望ましくないだろうか。実はこれが分析の目的と関わってくるのである。

　パターンの不正解それぞれの意味合いを言葉で表現すると、False Positiveは、本当は負例なのに正例であると予測した間違いであり、False Negativeは、本当は正例なのに負例であると予測した間違いである。

　予測結果の使い道が、例えば糖尿病の疑いのある人全員に対して健康食品配達の広告を打つ、というような、比較的軽い施策であれば、少しでも疑いのある人をなるべくカバーするようにしたいので、False Negativeを減らすべきであるという分析の方針につながる。

　一方で、一人ひとりにトレーナーをつけて運動サポートで糖尿病予防を図るという場合は、トレーナーの数にも限りがあるためサポートする人は厳選すべきであり、従ってFalse Positiveを減らすという方針になる。

　どちらの不正解を許容するかは機械学習のパラメータなどで調整ができる。

　この事例を使って、予測結果の評価尺度についてもう少し述べる。

　正解率は高い方が良いが、この事例は（そして世の中の予測問題のほとんどは）正例の割合がかなり低く、全て負例と予測したことにしても、単純な意味での正解率はかなり高くなってしまう。ところが、そんな予測が役に立たないのは自明なので、これ以外の評価尺度を考える必要がある。

　この類の問題において、一般的な評価尺度は、図2の数式にあるPrecisionやRecallなどである。Precisionは正例であると予測したものの正確性、Recallは全ての正例のうち、何割を正例と予測できているかという指標である。False Negativeを減らすならばRecallの高い予測モデルを探し、False Positiveを減らすならばPrecisionが高いものを探すということになる。

　実務ではバランスも重要なため、意思決定者の意図を汲みながら、ここで紹介した指標以外も合わせて細かい考察を積み重ねていくのである。

　分析とは数理的に実施されるものであり、そこには理論によって敷かれたレールのようなものがある、と想像される方もいるかも知れないが、実際の分析の現場をのぞいてみると、そんなものは皆無であることがすぐにわかるだろう。

　それでも分析の実務者たちは分析を前に進めなくてはならず、進むべき道を照らす指針を必要としているのである。その指針とは「データ活用の目的」であり、それは意思決定者とのコミュニケーションによってもたらされる。

　データ活用を考える人は、データ活用の目的を明確にし、まずはそれをデータサイエンティストに正確に伝えることに注力するとよいと筆者は考える。その際は、くれぐれもデータ活用自体が分析の目的、なんていうことにならないよう、十分注意されたい。

小副川健（おそえかわたけし）: 博士（理学）。専門分野は数学、特に計算機代数学と計算科学。2012年より富士通株式会社にてデータキュレーターとしてデータ分析業務に従事。さまざまな業種業務のデータ分析を手掛けている。Data Visualization Japan運営メンバー。訳書に『とっておきの数学パズル』（共訳、2011年、日本評論社）などがある。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

メールマガジン購読のお申し込み

「実践ビッグデータ」バックナンバー

関連キーワード: ビッグデータ

データ分析とデータ活用のあいだ--「意思決定者」とのコミュニケーション - (page 3)

「実践ビッグデータ」バックナンバー

関連記事

関連ホワイトペーパー

特集

CNET Japan Top Story

ホワイトペーパー

新着

ランキング

ZDNET Japan クイックポール

関連記事

NEWSLETTERS

「実践ビッグデータ」 バックナンバー

関連記事

関連ホワイトペーパー

特集

CNET Japan Top Story

ホワイトペーパー

新着

ランキング

ZDNET Japan クイックポール

関連記事

NEWSLETTERS

「実践ビッグデータ」バックナンバー