
從2010年第三波人工智慧(AI)發展開始,醫學領域上的應用就是各大科技公司積極投入的戰場。例如早在2016年,Google就使用深度學習技術,從視網膜眼底圖像中,辨識出糖尿病視網膜病變,準確率與專業醫師不相上下;隔年並在印度眼科醫院試行,準確度超過醫生。從那時候開始就有許多人很好奇:AI真的能取代醫生嗎?
在2022年底大型語言模型如OpenAI的ChatGPT推出後,還有陸續出現Alphabet的Gemini、Anthropic的Claude等多項生成式AI模型,早已證明使用者透過簡單的文字互動,就能與AI聊天機器人應對一般型任務,有問有答,條理分明,儼然專家之姿;若能進一步串接API或模型,加上合適的資料,即可以解決精準度更高的問題。
所以,AI真的能夠取代醫生嗎?在排除信任度、法規、習慣等現實常見的因素之外,2024年底,一項發表在《英國醫學期刊》(BMJ, British Medical Journal)的研究,以檢驗老年人認知功能障礙的測試方法,測試目前可公開取得的大型語言模型。發現這些模型幾乎都展現出輕度認知功能障礙,因此也可能造成在臨床上的應用侷限。
事實上,自2022年ChatGPT首次於線上免費開放使用以來,就有許多醫學期刊的研究主題是比較人類醫師和超級電腦的表現。這些研究成果大多發現,雖然大型語言模型有時會出錯,例如引用不存在的期刊文章,卻也證實了它們確實擅長醫學檢查,甚至表現有時比人類醫師還要好。
AI無法有共感和辨別複雜視覺場景?
而這項研究計畫主持人、以色列哈達薩醫學中心醫學生Roy Dayan與其團隊,使用檢測認知功能損傷及早期失智的「蒙特婁測試」(Montreal Cognitive Assessment, MoCA),測試目前可取得的大型模型,結果顯示,ChatGPT-4o得到了26分,ChatGPT-4、Claude得到25分,Gemini 1.0只得到了16分。
在這項滿分30分、超過26分以上視為認知能力正常的測試中,所有語言模型在語言理解、注意力及摘要能力等部分表現優異,但在「視覺與空間能力」測試中則表現不佳,例如,在路徑描繪測試和畫鐘測驗中,這些AI未能達到人類的標準。此外,Gemini甚至未能通過延遲回憶測試,顯示其在記憶保持方面的明顯缺陷。
AI 在醫學應用上的挑戰與侷限
大型基礎模型在DeepSeek-V1發佈之後,雖然各家模型的推理能力大增,但若照研究結論中所提到的,AI在自然語言處理及訊息整理方面表現出色,但在視覺抽象與執行能力方面明顯不足。這將會是在醫學臨床應用上的重大侷限。另外,還有一些基本的限制,例如:
1.缺乏共感(Empathy)與複雜場景理解
醫療診斷不僅仰賴數據分析,還涉及醫師的臨床經驗與對病患的同理心(empathy)。然而,研究顯示AI無法準確辨識病患的情緒,也難以理解複雜的視覺場景,如醫學影像的細微變化。
2.AI幻覺 (AI Hallucination) 問題
生成式AI模型有時會產生錯誤或誤導性資訊。捏造不存在的醫學研究、錯誤引用數據,甚至將正常醫學影像誤判為病變,出現的機率都不算太低。這些錯誤可能來自於訓練數據的缺陷、模型內部假設的錯誤,或是資料本身的偏誤,也有學者認為這是生成式AI的「本質」。是否能夠克服?如何克服?都是需要克服的挑戰。
3.視覺與執行功能的不足
在需要視覺空間判斷和執行能力的測試中,AI表現普遍不佳。例如,在Stroop測試 (評估認知干擾與反應時間)中,只有ChatGPT-4o表現良好,其他AI模型均未能有效應對。
醫療責任由誰承擔?智慧醫療的大哉問
對比一般醫生可能因為醫療過失,被法律追究責任,生成式AI犯錯誰要負起法律責任?這就要回到AI做為醫生 (醫療決策者) 的可能性,法律是否須將「AI」視為如同人類般的存在?若是現在的AI應用與展現,僅僅只能輔助,不足以把AI當作醫生,那AI作為醫生是不成立的,就無法讓它承擔任何法律責任。
此外,現行法律尚未能有效規範此類問題,在AI正式進入醫療診斷領域前,相關法規仍需進一步完善。
Roy Dayan與研究團隊在這個研究中,也特別指出人腦和大型語言模型之間的本質差異。他強調,在需要視覺抽象和執行功能的任務中,所有大型語言模型的一致失敗凸顯了重要的弱點,這可能會阻礙它們在臨床環境中的使用,可信度以及穩健性不足, 也影響患者信心。
雖然AI在處理醫學知識和提供臨床建議已展現潛力,但它仍無法取代人類醫生的經驗、直覺和共感能力,特別是在需要與病患互動、進行複雜診斷及決策的情境下,AI似乎顯得力不從心。
AI有潛力成為醫療工作的強大助手,透過輔助診斷、數據分析和臨床決策支持來提升醫療效率與準確性。未來,隨著技術發展與法律規範的完善,AI將在醫學領域可能發揮更大作用,但如何拿捏在「輔助」與「取代」之間的平衡點,一直會是未來醫療模式轉型的重要思考。