医療分野におけるAI研究は、ますます将来性が高まっている。この技術はすでに新薬の開発を加速させており、GoogleはAIを活用して医療アドバイスの質を向上させている。また、ウェアラブル機器を手がける企業も、健康予測機能の実現に向けてAI技術を活用している。そして現在、Microsoftがこの分野の可能性をさらに押し広げている。
同社は米国時間6月30日に公開したブログ投稿において、医療AIシステム「Microsoft AI Diagnostic Orchestrator(MAI-DxO)」が、New England Journal of Medicine(NEJM)に掲載された症例の85.5%を正確に診断することに成功したと発表した。この診断率は、経験豊富な医師による診断率の4倍以上に相当する。NEJMの症例は特に複雑であり、通常は複数の専門医による協議が必要とされるものである。
世の中の医療システムが依然としてアクセスしにくく、複雑で、混乱を招き続けている現状を踏まえれば、人々が可能な限りテクノロジーの力を借りようとするのは、決して不思議なことではない。
Microsoftは発表の中で、「『Bing』や『Copilot』など、MicrosoftのAIを活用した消費者向け製品全体で、毎日5000万件以上の健康関連セッションが発生している」と述べている。「膝の痛みに関する質問から、夜間の救急クリニックの検索に至るまで、検索エンジンやAIコンパニオンは、急速に医療の新たな最前線となりつつある」としている。
人間の医師は、(米国において)診療のために米国医師免許試験(USMLE)に合格する必要がある。この試験は、医療現場におけるAIシステムの性能を評価する際にも用いられており、モデル間の比較および人間との比較の両方において指標として活用されている。
現在、AIはUSMLEで高得点を記録している。これは、Microsoftによれば、モデルが多肢選択式の問題に対して理解ではなく記憶によって回答していることの副産物であり、必ずしも最も健全な医療分析を生み出すものではないとされている。多くの業界標準のAIベンチマークは、すでに飽和状態に達しており、これはAIモデルの進化があまりにも速く、テストが有用かつ挑戦的であるための役割を果たせなくなっていることを意味している。
この問題に対処するため、Microsoftは「Sequential Diagnosis Benchmark(SD Bench)」を作成した。シーケンシャル診断とは、実際の臨床医が患者の症状の出現から診察を開始し、そこから質問や検査を重ねて診断するプロセスである。このテストでは、NEJMに掲載された304件の症例から診断上の課題が提示され、人間およびAIモデルが質問をしながら診断を進められるようになっている。
その後、Microsoftは診断エージェントであるMAI-DxOを、「GPT」「Llama」「Claude」「Gemini」「Grok」「DeepSeek」などの大規模言語モデル(LLM)と組み合わせ、SD Benchテストにかけた。Microsoftによれば、MAI-DxOは、使用されるいずれのLLMに対しても、「多様な診断アプローチを持つ仮想的な医師団が診断症例を解決するために協力する」存在へと変化させるものであると説明している。
「MAI-DxOは、テスト対象となった全てのモデルの診断性能を向上させた」とMicrosoftはブログ投稿で述べている。また、同社はこのシステムをOpenAIの「o3」モデルと組み合わせた際に、最も高い性能を発揮したことを指摘している。さらに、英国および米国において5年から20年の臨床経験を有する21人の医師と比較したところ、彼らの平均診断精度はわずか20%にとどまったという。
Microsoftは、MAI-DxOが設定可能であることも明らかにしている。すなわち、ユーザーや組織が定めた費用制限内で診断プロセスを実行できる機能を備えているということである。この機能により、エージェントは特定の検査に対する費用対効果の分析が可能となり、米国における医療費の非常に高額な価格設定に対して重要な役割を果たす。これは、人間の医師や患者が診療に際して考慮すべき要素でもある。
この機能は、ある種のガードレール(安全策)としても機能する。Microsoftのブログ投稿によれば、この制約がなければ、AIは「費用、患者の不快感、ケアの遅延にかかわらず、可能な限り全ての検査を注文するようにデフォルト設定される可能性がある」と説明されている。さらに、MAI-DxOは、個々のモデルや人間の医師と比較して、より高い診断精度とより低い費用を実現したとされている。
AIが医師を置き換えることになるのか――。おそらく当面、その可能性は低いだろう。しかし、Microsoftのブログ投稿では、AIが有する知識の広範さにより、「臨床推論の多くの側面において、個々の医師の能力を超える可能性がある」と指摘されている。
同社は、このようなシステムが患者に信頼性の高い自己診断の選択肢を提供し、医師が複雑な症例に対応する際の支援となることで、「医療の再構築」が可能であるとの考えを示している。費用の削減は、不可解な高額請求や不透明な価格体系に悩まされ続けている医療業界にとって、もう一つの大きな利点となるだろう。
Microsoftは、MAI-DxOがこれらの特殊な症例に対してのみテストされているため、日常的な医療業務をどのように処理するかについては不明であることを認めている。しかし、同社はブログ投稿で、エージェントが人間の医師に取って代わることを目的としていないのであれば、この問題はそもそもそれほど重要ではないかもしれないと述べている。
MAI-DxOは、Microsoft AIが2024年に開始した「専用の消費者向け健康イニシアチブ」の一部であると、同社はリリースで述べている。この取り組みに含まれる他のAI製品には、放射線診断のワークフローを支援するツール「RAD-DINO」や、医療専門家向けに設計された音声AIアシスタント「Microsoft Dragon Copilot」が含まれている。

提供:krisanapong detraphiphat/Getty
この記事は海外Ziff Davis発の記事を朝日インタラクティブが日本向けに編集したものです。