実践ビッグデータ

データ分析とデータ活用のあいだ--「意思決定者」とのコミュニケーション - (page 2)

小副川 健(富士通)

2014-09-18 07:00

 データ活用の目的が分析に、具体的にどのような影響を与えるか、われわれの実証実験を例にとって説明しよう。


健診データなどを用いた糖尿病予測とサービス展開

 従業員の健康診断の情報などをもとに、その従業員の翌年の糖尿病リスクを算出するというものである。

 用いたデータは2万6千人の過去3年分の健康診断のデータやレセプトのデータだ。一般的な判定項目であるヘモグロビンA1cと空腹時血糖の他に、身体測定や血液検査から出るさまざまな数値や、実際に掛かった医療費であるレセプトデータを使う。これに「機械学習」という手法で分析をすることで、予測モデルを構築した。

 詳細については後の稿に譲るが、機械学習とは、予測問題においてなるべく誤りが少ないような法則を、コンピュータがデータから見つけ出す方法論である。この事例では、ある年のデータを使って、その1年後に糖尿病と判定されるかどうかを当てるという問題設定をしている。

 機械学習の手法はさまざまだが、基本的に、データを学習用データと評価用データに分け、学習用データを用いて法則を導き出し、評価用データでその法則の正しさを計測する、という流れで分析を進めている。

 糖尿病になるか、ならないかのような、2つのうちのどちらであるかを判定する問題は2値分類問題と呼ばれ、注目している方(今回の場合は糖尿病になる方)を正例、その反対(糖尿病にならない方)を負例と呼ぶ。

 予測結果には、正例を正例、負例を負例と予測する正解2パターンと、正例を負例、負例を正例と予測してしまう不正解2パターンの、合わせて4パターンがある。これら4つのパターンにはそれぞれ名前がついており、まとめると下図のようになる。


コンフュージョンマトリクス

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

マイナンバーカードの利用状況を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]