研究:AI 醫療診斷平均準確率 52.1%,與非專家醫生相當
4 月 21 日消息,大阪都會大學醫學研究生院 Hirotaka Takita 博士和 Daiju Ueda 副教授領導的研究小組近期發布一項系統性回顧和薈萃分析,深入評估了生成式人工智能(AI)在診斷醫療狀況方面的表現,并將其與醫生進行了對比。
本文引用地址:http://www.j9360.com/article/202504/469585.htm研究團隊篩選了總計 18371 項研究,最終確定 83 項進行詳細分析。這些研究涉及多種生成式 AI 模型,包括 GPT-4、Llama3 70B、Gemini 1.5 Pro 和 Claude 3 Sonnet 等,覆蓋了多個醫療領域。其中,GPT-4 是研究最多的模型。結果顯示,這些 AI 模型的平均診斷準確率為 52.1%(95% 置信區間:47.0% - 57.1%)。部分模型的診斷準確率與非專家醫生相當,兩者之間沒有顯著統計差異(準確率差異:0.6% [95% 置信區間:-14.5% 至 15.7%],p=0.93)。然而,專家醫生的表現仍優于 AI,其準確率差距為 15.8%(95% 置信區間:4.4% - 27.1%,p=0.007)。盡管如此,隨著技術的不斷進步,這一差距可能會逐漸縮小。
研究還發現,AI 在大多數醫學專科的表現較為一致,但有兩個例外:皮膚科和泌尿科。在皮膚科,AI 的表現更為出色,這可能是因為該領域涉及模式識別,而這是 AI 的強項。但皮膚科同樣需要復雜的推理和針對患者的決策,因此 AI 的優勢并不能完全反映其在該領域的實際應用價值。對于泌尿科,研究結果僅基于一項大型研究,因此其結論的普適性受到一定限制。
“這項研究表明,生成式 AI 的診斷能力與非專家醫生相當。它可以用于醫學教育,支持非專家醫生,并在醫療資源有限的地區協助診斷。”Hirotaka Takita 博士表示,“未來的研究需要在更復雜的臨床場景中進行評估,使用實際病歷進行性能評估,提高 AI 決策的透明度,并在不同患者群體中進行驗證,以進一步證實 AI 的能力。”
除了診斷領域,該研究還強調了生成式 AI 在醫學教育中的潛力。研究人員指出:“當前生成式 AI 模型在非專家環境下的表現與醫生相當,這為將 AI 整合到醫學培訓中提供了機會。” AI 可以用于模擬真實病例,幫助醫學生和受訓者學習和評估他們的技能。
然而,研究也對這些模型的透明度和偏見提出了擔憂。許多 AI 系統并未公開其訓練數據的詳細信息,這引發了關于其結果是否適用于所有人群的疑問。研究人員強調,“透明度確保了對模型知識、背景和局限性的理解”,并強調需要開發清晰、符合倫理且經過充分驗證的 AI 應用。
目前,盡管生成式 AI 具有巨大潛力,但在涉及詳細患者信息的復雜病例中仍面臨挑戰。醫生們是否需要擔心失去工作?目前尚難定論,但在診斷領域,這種情況是有可能發生的。
評論