企業にとって、コンピュータを活用して、すべての従業員を各分野のエキスパートに変えるというのは、魅力的なアイデアだろう。
IBMは、質問に回答する機能を持つ機械学習システム「Watson」を使えば、全員が専門家になるという夢を実現できると主張している。
しかし、Watsonから得られる答えはどのくらい役に立つのだろうか。そして、Watsonのトレーニングはどれくらい難しいのだろうか。米クイズ番組「Jeopardy!」で優勝したこともあるWatsonの使い方について語る資格を持つ人物の1人は、テキサス大学のInstitute for Health Transformationでディレクターを務めるLynda Chin氏だ。
同大学のMDアンダーソンがんセンターでは、過去4年間にわたって、IBM Watsonを利用して、がん患者の診断と治療を行うがん専門医を支援するシステムの開発に取り組んできた。
このシステム「Oncology Expert Advisor」(がん専門医エキスパートアドバイザー、OEA)は、がんについての学習を白血病から進めており、がん患者の記録から、治療、症状、副作用などに関する情報を吸収している。OEAはMDアンダーソンがんセンターの臨床医ネットワークに対して診断や治療についてのアドバイスを提供する一方で、学習を継続している。また同センターは、Watsonに肺がんの専門性を身につけさせるトレーニングの準備を進めている。
Chin氏はこの環境で、Watsonから最高の結果を引き出すには何が必要かを学んできた。
データの整理
Watsonは文字を読むことができ、ある程度までは、日常の言葉や専門的な言語で書かれた文書を理解することができる。しかし、Watsonから役に立つ情報を最大限に引き出そうとするのであれば、トレーニングに使用するデータを整理する必要がある可能性が高い。
「本物のデータが必要であり、これは医療分野では大きな課題だ」とChin氏は言う。
「よく言われているとおり、医療データは集約も正規化もほとんどされていない」(同氏)
患者のデータをWatsonに読み込ませる際、同センターはどのようなデータがトレーニングに適しているか、そのデータをどのようにクリーンアップし、人間の言葉や不明確な表現の曖昧さをどのように解決するかを探り当てる必要があった。
「医学データのグラフを読んで、患者が持つ問題を理解することは、システムのトレーニングを行う際に最も苦労した部分の1つだ。現場ではどんな医療記録に遭遇するか分からないし、ある情報に関連性があるのかどうかを理解できる必要がある」とChin氏は述べている。
幅広いデータが必要
Watsonやその他の一般的な機械学習システムの賢さは、トレーニングに使用したデータ次第だ。
もしWatsonにオールラウンドな能力を持たせたいなら、トレーニングに使うデータには、品質だけでなく、多様性も必要になる。
OEAのトレーニングを進めるうちに、MDアンダーソンがんセンターの研究者や、ニューヨークのメモリアルスローンケタリングがんセンターで同様のシステムを手がけている研究者は、それまでシステムに入力してきた医療記録が、限られたタイプのがん患者のものばかりであることに気づいた。
これらの医療センターで治療している患者は、2次医療、3次医療、あるいは4次医療がうまくいかなかった、進行がんの患者ばかりだった。