データ活用の目的が分析に、具体的にどのような影響を与えるか、われわれの実証実験を例にとって説明しよう。

健診データなどを用いた糖尿病予測とサービス展開
従業員の健康診断の情報などをもとに、その従業員の翌年の糖尿病リスクを算出するというものである。
用いたデータは2万6千人の過去3年分の健康診断のデータやレセプトのデータだ。一般的な判定項目であるヘモグロビンA1cと空腹時血糖の他に、身体測定や血液検査から出るさまざまな数値や、実際に掛かった医療費であるレセプトデータを使う。これに「機械学習」という手法で分析をすることで、予測モデルを構築した。
詳細については後の稿に譲るが、機械学習とは、予測問題においてなるべく誤りが少ないような法則を、コンピュータがデータから見つけ出す方法論である。この事例では、ある年のデータを使って、その1年後に糖尿病と判定されるかどうかを当てるという問題設定をしている。
機械学習の手法はさまざまだが、基本的に、データを学習用データと評価用データに分け、学習用データを用いて法則を導き出し、評価用データでその法則の正しさを計測する、という流れで分析を進めている。
糖尿病になるか、ならないかのような、2つのうちのどちらであるかを判定する問題は2値分類問題と呼ばれ、注目している方(今回の場合は糖尿病になる方)を正例、その反対(糖尿病にならない方)を負例と呼ぶ。
予測結果には、正例を正例、負例を負例と予測する正解2パターンと、正例を負例、負例を正例と予測してしまう不正解2パターンの、合わせて4パターンがある。これら4つのパターンにはそれぞれ名前がついており、まとめると下図のようになる。

コンフュージョンマトリクス