估值超200億的AI醫生OpenEvidence已上崗:40%美國醫生在使用的通過USMLE的臨床級大模型 精華
摘要&前言:
近日,AI醫療公司OpenEvidence獲得了2.1億美元的B輪融資,估值飆升至35億美元(約合人民幣251億元)。OpenEvidence成立于2022年,總部位于美國邁阿密,致力于為醫生提供臨床級診斷工具。公司由Daniel Nadler創辦,他是一名哈佛大學經濟學博士,也是一位非常成功的連續創業者。曾經創立了知名AI金融公司Kensho并被標普以5.5億美元收購。
本文深入解讀通過USMLE(美國醫師執照考試)的臨床級大模型OpenEvidence如何為醫療領域帶來革命性變革。文章詳細拆解其架構創新、數據飛輪、模型精調與安全可信機制,并展望這一技術范式向法律、金融、網絡安全等高風險領域復制的可能性。閱讀后,你將理解“以證據為本”的智能是醫療等高風險行業AI落地的未來。
1. 場景設定:凌晨2點的急診室
一位患有心房顫動且合并復雜基礎病的患者被送至急診。主治醫生面對兩種抗凝藥物的選擇,標準指南雖明確,但最新發表(僅一個月前)的研究論文提示:對于該患者特定遺傳標記,應采用另一種方案。這篇論文是當日全球新發4000篇生物醫學文獻之一,要在有限時間內準確找到、閱讀并解釋其臨床意義,幾乎不可能。
這正是2025年各類高風險專業的普遍危機:數據淹沒,洞察匱乏。通用型大語言模型(LLM)或許能為我們提供某種“救命稻草”,但也暗藏風險。
在當前跨高風險領域的 LLM 部署浪潮中,OpenEvidence 脫穎而出,成為第一個為現實世界的醫療保健工作流程構建的可靠臨床推理系統。與依賴隨機流暢性的通用模型不同,OpenEvidence 的結構是為認識可追溯性而構建的:每個答案都基于檢索到的、經過同行評審的證據,通過研究設計進行過濾,并通過領域微調推理引擎進行綜合。
2. OpenEvidence:醫療領域的首個可信推理系統
OpenEvidence以臨床現實工作流為導向,強調“知識溯源”,區別于依賴“流暢言辭”的通用模型。每一個答案都基于可檢索的、同行評議的證據,按研究設計過濾,并通過行業化優化的推理引擎綜合得出。
在模擬USMLE Step 2臨床病例、多項選擇題測試中,OpenEvidence準確率超90%。雖然并非真實考場,但這些受控評測模擬了醫生在不確定環境下的決策力——成績甚至和持證醫生相當。
更核心的競爭力,其實是信息篩選和證據提取的極致效率。
3.架構創新:專科大模型的崛起
3.1 通用型與專科型之分
GPT-4、LLaMA等模型是“語言全才”,但難以勝任專業推理。例如問及具體藥物交互,通用LLM可能會“幻覺”出不存在的論文,甚至誤解重要藥理機制,給出“自信而致命”的建議。
終極分岔:用提示微調通才,還是重鑄其“神經網絡”成專業選手?OpenEvidence選擇了后者。
3.2 為什么“RAG檢索增強”遠遠不夠
RAG(Retrieval-Augmented Generation)——即為LLM接入動態學術數據庫,讓它在回答問題時可檢索海量文獻。但要是“學生”根本看不懂專業論文,檢索再準也無用。例如:“A藥患者能否安全服用B藥嗎?”
檢索:RAG 系統正確檢索了兩份文件:藥物 B 的臨床試驗顯示出低副作用,以及一篇指出藥物 A 是 CYP3A4 酶的有效抑制劑的藥理學論文。
生成(失敗):仿制藥法學碩士看到藥物B試驗呈陽性,不了解神秘的藥理學,自信地回應道:“是的,根據臨床試驗數據,藥物B總體耐受性良好。
檢索正確論文后,通用LLM卻忽視了A藥嚴重抑制B藥代謝的風險,導致毒性過量,給出錯誤判斷。這種情況下,RAG帶來了信息,但通用模型缺乏專業理解。
3.3 精調與“人類數據飛輪”
對LLM的精調不是“死記硬背”,而是通過領域數據微調其概率分布,讓推理方式趨近行業專家。
大規模高質量“專家數據”難以依靠人工。OpenEvidence首創“人-機循環”數據飛輪:用強大的通用LLM先生成大批Q&A,由專家快速驗證/修正,再反哺模型精調。新一輪模型又更擅長生成高質量數據,形成正向飛輪。
3.4 LoRA輕量精調,“多腦可插拔”
傳統全參精調像“錘子砸腦子”,易遺忘通識能力且算力成本驚人。OpenEvidence采用LoRA(低秩適配)——只對模型部分參數注入可訓練小矩陣,實現高效、可控、微損耗的領域微調。不止成本低,還可快速切換“多科專家大腦”。
技術公式:W = W? + BA(W?為原模型權重,B與A為小型自適應矩陣,通常僅需訓練總參數的0.1%)
4. 第二代架構:多智能體協作
OpenEvidence已超越RAG+精調,全面引入多智能體(Multi-Agent)協作,每個子智能體各司其職:
- 調度員代理(Dispatcher):解析用戶意圖,分流到不同工作鏈條。接收初始查詢并確定用戶的意圖。這是關于治療效果、副作用或作用機制的問題嗎?它將任務路由到相應的工作流。
- 檢索代理(Retrieval):多庫檢索(如PubMed、ClinicalTrials、院內知識庫),理解各自檢索語法
- 摘要代理(Summarization):將檢索到的復雜文獻抽取為結構化摘要(如受試者規模、p值、主要結論等)?
- 綜合代理(Synthesis):這是核心的、經過 LoRA 調整的“專家推理器”。它看不到完整、凌亂的文檔。它只看到 Summarizer 中干凈、結構化的摘要,使其能夠在多項研究中比較蘋果,并綜合出連貫的、基于證據的答案。只接收結構化摘要,比較多篇證據,輸出嚴謹推理結論
- 安全代理(Safety):全流程末端校驗,不允許未被證實的信息或暗示
這種“模塊化專科團隊+專家大腦”方式,比單一大模型更穩健、可解釋、易擴展。
5. 信任架構:合規AI與Red Team攻防
- Constitutional AI(合規人工智能)先制定“憲法”原則(如不直接給診斷建議僅提供引文證據;必聲明證據局限性例如,樣本量小、非隨機試驗;碰到證據矛盾不站隊),再讓一個AI寫答案,另一個AI嚴格依照合規要求批評指正,強化安全與透明。?
- 專業Red Team攻擊測試組建專家“黑客團隊”,專門設計容易誘使AI出錯的測試題,持續迭代安全邊界。這也是高風險領域最有效的安全機制。?
- 源數據溯源每條輸出均嚴密追溯到有時戳的學術來源,杜絕“幻覺”造假,真正實現“以證據為依據”。?
6. 藍圖復制:法律、金融、網絡安全下一個風口
- 法律行業專有代理監控最新判例、識別活案沖突,憲法規定嚴禁主動給出法律建議,僅可說明“某判例為約束性先例”等。?
- 網絡安全模型專精CVEs和事故日志,主動預警新威脅,如:“檢測到與Cobalt Strike相關的新C2服務器IP,已于過去24小時映射你的服務器流量。”?
- 金融領域對SEC公告、財報電話會轉錄精調,主動推送如“企業最新8-K披露新債務條款,可能影響并購擴張”的動態,堅守“不做投資建議”紅線。?
7. 總結:從醫學檢索問答工具到真正數字智能分身
OpenEvidence代表了企業級大模型飛躍的四個階段:
- Phase 1(全才模型):智能玩具
- Phase 2(RAG):信息搜索引擎
- Phase 3(RAG+精調):擁有專業推理力的助手
- Phase 4(多智能體&憲法AI):安全、可信、協作式專家系統



真正的終局,是從被動響應轉向主動預警的數字孿生體。系統自動追蹤海量上下文,針對你的患者、案件、網絡環境,主動推送關鍵信號,實現“危中見機”。
OpenEvidence證明了面向“高證據可追溯性”的智能已可落地——而這只會加速蔓延至每一個高風險專業。
編譯自:
作者:Karla Ortiz-Flores科技從業者,兼具講故事的靈性,關注人性連接與行業進化。
本文轉載自??知識圖譜科技??,作者:KGGPT

















