AI Hospital(人工智能醫(yī)院):在多智能體醫(yī)療互動模擬器中評估大模型的表現(xiàn) - 阿里、華中科技等

摘要
人工智能通過大型語言模型(LLMs)顯著改變了醫(yī)療保健領(lǐng)域,尤其在靜態(tài)醫(yī)學(xué)問答基準(zhǔn)測試中表現(xiàn)出色。然而,由于醫(yī)患互動的復(fù)雜性,評估LLMs在現(xiàn)實(shí)世界臨床應(yīng)用的潛力仍然具有挑戰(zhàn)性。為此,我們引入了“人工智能醫(yī)院”這一多智能體框架,模擬醫(yī)生(玩家)與包括患者和檢查員在內(nèi)的非玩家角色(NPCs)之間的動態(tài)醫(yī)療互動。這種設(shè)置允許在模擬的臨床場景中更實(shí)際地評估LLMs的表現(xiàn)。我們開發(fā)了“多視圖醫(yī)療評估”(MVME)基準(zhǔn)測試,利用高質(zhì)量的中文醫(yī)療記錄和多種評估策略來量化由LLM驅(qū)動的醫(yī)生智能體在癥狀收集、檢查建議和診斷方面的表現(xiàn)。此外,提出了一種爭議解決協(xié)作機(jī)制,通過迭代討論提升醫(yī)療互動能力。盡管有所改進(jìn),當(dāng)前的LLM(包括GPT-4)在多輪互動場景中的表現(xiàn)與非互動場景相比仍有顯著差距。我們的研究結(jié)果強(qiáng)調(diào)了進(jìn)一步研究的必要性,以縮小這些差距并提高大型語言模型在臨床決策方面的能力。
數(shù)據(jù)、代碼和實(shí)驗(yàn)結(jié)果均在??https://github.com/LibertFan/AI_Hospital??開源。
??https://aclanthology.org/2025.coling-main.680/??

核心速覽
研究背景
- 研究問題:這篇文章要解決的問題是如何評估大型語言模型(LLMs)在真實(shí)世界臨床診斷中的應(yīng)用潛力。盡管LLMs在靜態(tài)醫(yī)學(xué)問答基準(zhǔn)測試中表現(xiàn)出色,但在動態(tài)的醫(yī)患互動中仍存在顯著挑戰(zhàn)。
- 研究難點(diǎn):該問題的研究難點(diǎn)包括:動態(tài)診斷過程涉及多輪互動,而現(xiàn)有的LLMs在多輪互動場景中的表現(xiàn)遠(yuǎn)不如非互動場景;LLMs難以通過互動收集全面的患者信息并推薦正確的醫(yī)學(xué)檢查。
- 相關(guān)工作:在LLMs應(yīng)用于醫(yī)學(xué)領(lǐng)域之前,已有研究嘗試創(chuàng)建醫(yī)療領(lǐng)域的代理,但這些代理通常缺乏靈活性,難以準(zhǔn)確模擬復(fù)雜的醫(yī)療場景。近年來,隨著LLMs的發(fā)展,其在復(fù)雜任務(wù)解決方面取得了顯著進(jìn)展,但在疾病診斷方面的應(yīng)用仍面臨挑戰(zhàn)。
研究方法
這篇論文提出了AI Hospital框架,用于模擬真實(shí)的動態(tài)醫(yī)療互動,并開發(fā)了多視圖醫(yī)學(xué)評估(MVME)基準(zhǔn)來評估LLMs在臨床診斷中的表現(xiàn)。具體來說:
- AI Hospital框架:該框架包括兩個非玩家角色(NPC):患者和檢查員,以及一個玩家角色:醫(yī)生。醫(yī)生通過與患者和檢查員的互動來完成患者的診斷,并生成完整的診斷報告。
- 多視圖醫(yī)學(xué)評估(MVME)基準(zhǔn):基于AI Hospital框架,利用高質(zhì)量的中文病歷記錄,評估LLMs驅(qū)動的醫(yī)生代理在癥狀收集、檢查建議和診斷等方面的表現(xiàn)。評估方法包括基于鏈接的自動評估、基于模型的評估和人工評估。
- 爭議解決協(xié)作機(jī)制:提出了一種協(xié)作機(jī)制,通過多個醫(yī)生獨(dú)立診斷同一病例,生成不同的對話軌跡和診斷報告,然后通過中心代理促進(jìn)有效討論,達(dá)成共識。

實(shí)驗(yàn)設(shè)計(jì)
- 數(shù)據(jù)收集:從iyi.com網(wǎng)站收集了506份高質(zhì)量的醫(yī)療記錄,涵蓋12個專科、48個亞專科和多種疾病。

- 實(shí)驗(yàn)設(shè)置:使用多個醫(yī)生代理,包括GPT-3.5、GPT-4、Wenxin-4和Qwen-Max,隨機(jī)選擇50份病歷樣本,每個代理生成50輪多輪對話軌跡。手動標(biāo)注所有指標(biāo)并報告平均值。
- 評估指標(biāo):包括癥狀收集、檢查建議和診斷等方面的評估。基于鏈接的評估使用ICD-10標(biāo)準(zhǔn)計(jì)算實(shí)體重疊度;基于模型的評估使用GPT-4作為評估器,采用離散評分系統(tǒng);人工評估由專業(yè)醫(yī)生進(jìn)行,遵循與GPT-4評估器相同的評分標(biāo)準(zhǔn)。
結(jié)果與分析
- AI Hospital框架的有效性:實(shí)驗(yàn)結(jié)果表明,AI Hospital框架能夠有效模擬真實(shí)的醫(yī)療互動,所有指標(biāo)的平均值均超過95,表明代理行為可靠且一致。
- 各種醫(yī)生代理的性能:在多輪互動場景中,現(xiàn)有LLMs的表現(xiàn)顯著低于一步GPT-4方法。例如,GPT-4在診斷準(zhǔn)確性、推理和治療計(jì)劃方面的表現(xiàn)不足其一步設(shè)置性能的50%。
- 協(xié)作機(jī)制的效果:協(xié)作機(jī)制在一定程度上提高了性能,但仍未能達(dá)到上限。主要原因是醫(yī)生代理未能準(zhǔn)確推薦必要的醫(yī)學(xué)檢查,以及在互動過程中未能詢問關(guān)鍵的相關(guān)癥狀。
- 診斷性能與信息完整性的關(guān)系:分析表明,患者信息的完整性越高,診斷質(zhì)量越高。當(dāng)前LLMs難以通過互動動態(tài)收集全面的信息,推薦正確的醫(yī)學(xué)檢查也是一個挑戰(zhàn)。

總體結(jié)論
這篇論文通過引入AI Hospital框架和多視圖醫(yī)學(xué)評估(MVME)基準(zhǔn),首次系統(tǒng)地評估了LLMs在模擬醫(yī)療互動中的能力。結(jié)果表明,盡管LLMs在靜態(tài)醫(yī)學(xué)問答中表現(xiàn)出色,但在動態(tài)診斷場景中仍存在顯著局限性。未來的研究應(yīng)致力于改進(jìn)LLMs的訓(xùn)練,以縮小與人類專家在臨床醫(yī)學(xué)中的差距。
論文評價
優(yōu)點(diǎn)與創(chuàng)新
- 引入AI Hospital框架論文首次提出了基于大型語言模型(LLM)的多代理框架,模擬真實(shí)的醫(yī)療互動,全面評估LLM在復(fù)雜臨床場景中的能力。
- 建立MVME基準(zhǔn)開發(fā)了多視圖醫(yī)學(xué)評估(MVME)基準(zhǔn),利用高質(zhì)量的中文病歷記錄,評估LLM驅(qū)動的醫(yī)生代理在收集癥狀、推薦檢查和診斷方面的表現(xiàn)。
- 提出爭議解決協(xié)作機(jī)制提出了一種協(xié)作機(jī)制,通過迭代討論提高診斷準(zhǔn)確性,展示了LLM在臨床診斷中的應(yīng)用潛力。
- 數(shù)據(jù)集可視化與統(tǒng)計(jì)對數(shù)據(jù)集進(jìn)行了詳細(xì)的可視化與統(tǒng)計(jì)分析,展示了數(shù)據(jù)集的多樣性和復(fù)雜性,強(qiáng)調(diào)了醫(yī)生代理在面對數(shù)百種檢查選項(xiàng)時需要具備的強(qiáng)大信息收集能力。
- 多部門性能分析分析了不同醫(yī)院部門的LLM性能,揭示了交互能力與診斷能力之間的正相關(guān)性,強(qiáng)調(diào)了考慮每個醫(yī)療專業(yè)的特定要求和復(fù)雜性在部署LLM時的重要性。
不足與反思
- 數(shù)據(jù)集局限性數(shù)據(jù)集主要來源于中文病歷記錄,可能限制了研究結(jié)果的通用性,難以推廣到其他語言和醫(yī)療系統(tǒng)。
- 患者代理設(shè)置的影響未探討不同患者背景、文化和偏見對模型性能的影響。
- 外部工具的利用未研究醫(yī)生代理利用外部工具、外部知識或基于多模態(tài)醫(yī)療信息做出決策的能力。
- 資源消耗依賴大量LLM API進(jìn)行新模型的測試會消耗大量資源,并可能增加碳排放。
- 框架的復(fù)雜性提出的AI Hospital和協(xié)作機(jī)制基于相對簡單的框架,可能未能完全捕捉真實(shí)世界臨床合作的復(fù)雜性,需要在更多樣化和實(shí)際的設(shè)置中進(jìn)一步細(xì)化和驗(yàn)證。
關(guān)鍵問題及回答
問題1:AI Hospital框架是如何設(shè)計(jì)的,它如何模擬真實(shí)的醫(yī)療互動?
AI Hospital框架包括兩個非玩家角色(NPC):患者和檢查員,以及一個玩家角色:醫(yī)生。醫(yī)生通過與患者和檢查員的互動來完成患者的診斷,并生成完整的診斷報告。具體來說,患者代理會根據(jù)病歷中的基本信息與醫(yī)生進(jìn)行對話,提供癥狀和既往病史等信息。醫(yī)生則會根據(jù)這些信息詢問更多的細(xì)節(jié),并建議進(jìn)行必要的醫(yī)學(xué)檢查。檢查員代理會提供相應(yīng)的檢查結(jié)果,醫(yī)生再根據(jù)這些結(jié)果進(jìn)行診斷,并最終生成診斷報告。整個對話過程被限制在預(yù)定的最大回合數(shù)內(nèi),以確保對話的結(jié)構(gòu)化和有限性。
問題2:多視圖醫(yī)學(xué)評估(MVME)基準(zhǔn)是如何構(gòu)建的,它包括哪些評估方法?
多視圖醫(yī)學(xué)評估(MVME)基準(zhǔn)基于AI Hospital框架,利用高質(zhì)量的中文病歷記錄來評估LLMs驅(qū)動的醫(yī)生代理在癥狀收集、檢查建議和診斷等方面的表現(xiàn)。具體評估方法包括:
- 基于鏈接的自動評估計(jì)算診斷結(jié)果部分的實(shí)體重疊度,使用ICD-10標(biāo)準(zhǔn)提取疾病實(shí)體并計(jì)算其重疊度,以衡量最終診斷的準(zhǔn)確性。
- 基于模型的評估使用GPT-4作為評估器,對診斷報告的各個部分(如癥狀收集、檢查建議、診斷結(jié)果等)進(jìn)行離散評分,評分標(biāo)準(zhǔn)為1到4(從差到優(yōu))。
- 人工評估由專業(yè)醫(yī)生進(jìn)行,遵循與GPT-4評估器相同的評分標(biāo)準(zhǔn),對診斷報告的各個方面進(jìn)行詳細(xì)評估。
問題3:實(shí)驗(yàn)結(jié)果表明LLMs在多輪互動場景中的表現(xiàn)如何,與一步GPT-4方法相比有哪些差距?
實(shí)驗(yàn)結(jié)果表明,現(xiàn)有LLMs在多輪互動場景中的表現(xiàn)顯著低于一步GPT-4方法。具體來說,GPT-4在診斷準(zhǔn)確性、推理和治療計(jì)劃方面的表現(xiàn)不足其一步設(shè)置性能的50%。這表明LLMs在動態(tài)診斷場景中仍存在顯著局限性,難以通過互動收集全面的患者信息并推薦正確的醫(yī)學(xué)檢查。此外,協(xié)作機(jī)制雖然在一定程度上提高了性能,但仍未能達(dá)到上限,主要原因是醫(yī)生代理未能準(zhǔn)確推薦必要的醫(yī)學(xué)檢查,以及在互動過程中未能詢問關(guān)鍵的相關(guān)癥狀。
本文轉(zhuǎn)載自??知識圖譜科技??,作者:Wolfgang

















