精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

檢索總結能力超博士后,首個大模型科研智能體PaperQA2開源了

人工智能 新聞
這是 AI 智能體在大部分科學研究中超越人類的第一個案例,或許會徹底改變人類與科學文獻互動的方式。

最近一段時間,有關 AI 科學家的研究越來越多。大語言模型(LLM)有望幫助科學家檢索、綜合和總結文獻,提升人們的工作效率,但在研究工作中使用仍然有很多限制。

對于科研來說,事實性至關重要,而大模型會產生幻覺,有時會自信地陳述沒有任何現有來源或證據的信息。另外,科學需要極其注重細節,而大模型在面對具有挑戰性的推理問題時可能會忽略或誤用細節。

最后,目前科學文獻的檢索和推理基準尚不完善。AI 無法參考整篇文獻,而是局限于摘要、在固定語料庫上檢索,或者只是直接提供相關論文。這些基準不適合作為實際科學研究任務的性能代理,更重要的是,它們通常缺乏與人類表現的直接比較。因此,語言模型和智能體是否適合用于科學研究仍不清楚。

近日,來自 FutureHouse、羅切斯特大學等機構的研究者們嘗試構建一個更為強大的科研智能體,并對 AI 系統和人類在三個現實任務上的表現進行嚴格比較。這三個任務有關搜索整個文獻以回答問題;生成一篇有引用的、維基百科風格的科學主題文章;從論文中提取所有主張,并檢查它們與所有文獻之間的矛盾。

這可能是第一個在多個現實文獻搜索任務上評估單個 AI 系統的強大程序。利用新開發的評估方法,研究者探索了多種設計,最終形成了 PaperQA2 系統,它在檢索和總結任務上的表現超過了博士生和博士后

圖片

將 PaperQA2 應用于矛盾檢測任務讓我們能夠大規模識別生物學論文中的矛盾。例如,ZNF804A rs1344706 等位基因對精神分裂癥患者的大腦結構有積極影響的說法與后來發表的研究相矛盾,該研究發現 rs1344706 對大腦皮質厚度、表面積和皮質體積的影響會加劇患精神分裂癥的風險。

  • 論文地址:https://storage.googleapis.com/fh-public/paperqa/Language_Agents_Science.pdf
  • GitHub 鏈接:https://github.com/Future-House/paper-qa

網友紛紛表示這項工作太棒了,并且是開源的。

圖片

回答科學問題

為了評估 AI 系統對科學文獻的檢索能力,研究者首先生成了 LitQA2,這是一組共 248 個多項選擇題,其答案需要從科學文獻中檢索。LitQA2 問題的設計目的是讓答案出現在論文正文中,但不出現在摘要中,理想的情況下,在所有科學文獻中只出現一次。這些約束使我們能夠通過將系統引用的來源 DOI 與問題創建者最初分配的 DOI 進行匹配來評估回答的準確性(下圖 A)。

為了執行這些標準,研究者生成了大量關于最近論文中模糊的中間發現的問題,然后排除了任何現有 AI 系統或人類注釋者可以使用替代來源進行回答的問題。它們都是由專家生成的。

在回答 LitQA2 問題時,模型可以通過選擇「信息不足,無法回答此問題」來拒絕回答。與先前的研究和實際的科學問題類似,有些問題本來就是無法回答的。研究者評估了兩個指標:精確度(即在提供答案時正確回答的問題的比例)和準確度(即所有問題中正確答案的比例)。此外還考慮了召回率,即系統將其答案歸因于 LitQA2 中表示的正確源 DOI 的問題的總百分比。

在開發了 LitQA2 之后,研究者利用它來設計一個科學文獻的 AI 系統。在 PaperQA 的啟發下,PaperQA2 是一個 RAG 智能體,它將檢索和響應生成視為一個多步驟智能體任務,而不是一個直接過程。PaperQA2 將 RAG 分解為工具,使其能夠修改其搜索參數,并在生成最終答案之前生成和檢查候選答案(下圖 A)。

PaperQA2 可以訪問「論文搜索」工具,其中智能體模型將用戶請求轉換為用于識別候選論文的關鍵字搜索。候選論文被解析為機器可讀的文本,并分塊以供智能體稍后使用。PaperQA2 使用最先進的文檔解析算法(Grobid19),能可靠地解析論文中的章節、表格和引文。找到候選論文后,PaperQA2 可以使用「收集證據」工具,該工具首先使用 top-k 密集向量檢索步驟對論文塊進行排序,然后進行大模型重新排序和上下文摘要(RCS)步驟。

在回答 LitQA2 問題時,PaperQA2 平均每道題解析并使用 14.5 ± 0.6(平均值 ± SD,n = 3)篇論文。在 LitQA2 上運行 PaperQA2 可獲得 85.2% ± 1.1%(平均值 ± SD,n = 3)的精確度和 66.0% ± 1.2%(平均值 ± SD,n = 3)的準確度。另外,系統在 21.9% ± 0.9%(平均值 ± SD,n = 3)的答案中選擇報告「信息不足」(下圖 B)。

研究者發現 PaperQA2 在 LitQA2 基準測試中的精確度和準確度均優于其他 RAG 系統。我們還可以發現,除 Elicit 外所有測試的 RAG 系統在精確度和準確度方面均優于非 RAG 前沿模型。

為了確保 PaperQA2 不會過擬合,從而無法在 LitQA2 上取得優異成績,研究者在對 PaperQA2 進行大量工程改動后,生成了一組新的 101 個 LitQA2 問題。

PaperQA2 在原始 147 個問題上的準確率與后一組 101 個問題的準確率沒有顯著差異,這表明在第一階段的優化已經很好地推廣到了新的 LitQA2 問題(下表 2)。

圖片

PaperQA2 性能分析

研究者嘗試改變 PaperQA2 的參數,以了解哪些參數決定其準確性(下圖 C)。他們創建了一個非智能體版本,其中包含一個硬編碼操作序列(論文搜索、收集證據,然后生成答案)。非智能體系統的準確率明顯較低(t (3.7)= 3.41,p= 0.015),驗證了使用智能體的選擇。

研究者將性能差異歸因于智能體更好的記憶能力,因為它可以在觀察到找到的相關論文數量后返回并更改關鍵字搜索(論文搜索工具調用)。

結果顯示,LitQA2 運行準確度最高時為每個問題進行了 1.26 ± 0.07(平均值 ± SD)次搜索,每個問題進行了 0.46 ± 0.02(平均值 ±SD)次引用遍歷,這表明智能體有時會返回進行額外搜索或遍歷引用圖以收集更多論文。

為了改進相關塊檢索,研究者假設,找到的論文對于現有相關塊的引用者或被引用者而言將是一種有效的分層索引形式。通過去除「引用遍歷」工具驗證了這一點,該工具顯示準確率有所提高(t (2.55) = 2.14,p= 0.069),DOI 召回率顯著提高(t (3) = 3.4,p = 0.022),并在 PaperQA2 流程的所有階段都是如此。該工具的流程反映了科學家與文獻互動的方式。

研究者曾假設解析質量會影響準確度,但 Grobid 解析和更大的塊并沒有顯著提高 LitQA2 的精度、準確度或召回率(下圖 6)。

總結科學主題

為了評估 PaperQA2 的摘要功能,研究者設計了一個名為 WikiCrow 的系統。該系統通過結合多個 PaperQA2 調用來生成有關人類蛋白質編碼基因的維基百科風格文章,而這些調用涉及基因的結構、功能、相互作用和臨床意義等主題。

研究者使用 WikiCrow 生成了 240 篇有關基因的文章,這些文章已經有非存根維基百科文章進行匹配比較。WikiCrow 文章平均為 1219.0 ± 275.0 個字(平均值 ± SD,N = 240),比相應的維基百科文章(889.6 ± 715.3 個字)長。平均文章生成時間為 491.5 ± 324.0 秒,平均每篇文章成本為 4.48 ± 1.02 美元(包括搜索和 LLM API 的費用)。

同時,「引用但不受支持」評估類別包括不準確的陳述(例如真實幻覺或推理錯誤)和準確但引用不當的聲明。

為了進一步調查維基百科和 WikiCrow 中的錯誤性質,研究者手動檢查了所有報告的錯誤,并嘗試將問題分類為以下幾類:

  • 推理問題,即書面信息自相矛盾、過度推斷或不受任何引用支持;
  • 歸因問題,即信息可能得到另一個包含的來源支持,但該聲明在本地沒有包含正確的引用或來源太寬泛(例如數據庫門戶鏈接);
  • 瑣碎的聲明,這些聲明雖是真實的段落,但過于迂腐或沒有必要。

檢測文獻中的矛盾

由于 PaperQA2 可以比人類科學家探索吞吐量高得多的科學文獻,因此研究者推測可以部署它來系統地、大規模地識別文獻中矛盾和不一致的地方。矛盾檢測是一個「一對多」問題,原則上涉及將一篇論文中的觀點或聲明與文獻中所有其他觀點或聲明進行比較。在規模上,矛盾檢測變成了「多對多」問題,對人類來說失去了可行性。

因此,研究者利用 PaperQA2 構建了一個名為 ContraCrow 的系統,可以自動檢測文獻中的矛盾(下圖 A)。

ContraCrow 首先使用一系列 LLM completion 調用從提供的論文中提取聲明,然后將這些聲明輸入到 PaperQA2 中,并附帶矛盾檢測提示。該提示指示系統評估文獻中是否存在與提供的聲明相矛盾的內容,并提供答案和 11-point 李克特量表的選擇。使用李克特量表可讓系統在提供排名時給出更可靠、更易于解釋的分數。

圖片

接下來,研究者評估了 ContraCrow 檢測 ContraDetect 中矛盾的能力。通過將李克特量表輸出轉換為整數,他們能夠調整檢測閾值并獲得 AUC 為 0.842 的 ROC 曲線。將閾值設置為 8(矛盾),ContraCrow 實現了 73% 的準確率、88% 的精度和僅為 7% 的假陽性率(下圖 C)。

圖片

研究者將 ContraCrow 應用于從數據庫中隨機選擇的 93 篇生物學相關論文,平均每篇論文識別出 35.16 ± 21.72(平均值 ± SD,N = 93)個聲明。在對 93 篇論文分析出的 3180 個聲明中,ContraCrow 認為 6.85% 與文獻相矛盾,其中分別有 2.89%、3.77% 和 0.19% 的聲明被打了 8 分、9 分和 10 分(下圖 D)。

圖片

此外,當將李克特量表閾值設定為 8,研究者發現平均每篇論文有 2.34 ± 1.99 個矛盾(平均值 ± SD)(下圖 E)。

圖片

更多任務細節和測試結果請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-06-10 11:22:04

美團

2025-09-02 09:05:00

AI大模型智能體

2025-07-17 08:14:22

2025-06-09 09:41:25

2025-09-25 12:42:33

2013-02-21 15:46:32

寶德深圳博士后

2025-06-09 08:56:00

2023-12-01 09:36:59

華為云大模型混合云華為云行業高峰論壇

2025-03-17 08:40:00

開源智能體框架

2023-11-22 12:41:42

AI模型

2020-06-28 15:01:18

代碼開發繪圖

2025-11-07 09:12:35

2020-12-02 14:56:19

計算機互聯網 技術

2017-01-10 14:24:23

點贊
收藏

51CTO技術棧公眾號

欧美高清无遮挡| 欧美美女激情18p| 精品乱色一区二区中文字幕| 久久精品一二区| 精品美女在线视频| 91精品国产日韩91久久久久久| 真人做人试看60分钟免费| 欧美一区,二区| 日韩在线一区二区三区| 在线观看亚洲区| 性高潮久久久久久| 国模套图日韩精品一区二区| 亚洲男人的天堂在线观看| 好吊妞www.84com只有这里才有精品| 欧美人一级淫片a免费播放| 亚洲先锋影音| 亚洲人在线观看| 极品人妻一区二区| 日韩av首页| 亚洲夂夂婷婷色拍ww47| 日韩理论片在线观看| 风流少妇一区二区三区91| 日日骚欧美日韩| 欧美激情亚洲一区| 天天摸日日摸狠狠添| 另类ts人妖一区二区三区| 欧美日韩国产高清一区二区三区| 免费成人午夜视频| av毛片在线看| 国产免费成人在线视频| 国产色综合一区二区三区| 91九色蝌蚪91por成人| 久久九九国产| 国语自产精品视频在线看抢先版图片| 亚洲熟女毛茸茸| 精品国产一区二区三区久久久蜜臀| 日韩欧美一区二区不卡| www.com污| 欧美极品免费| 欧美午夜无遮挡| 777av视频| 美女精品导航| 亚洲综合久久久| 一级黄色录像免费看| yw193.com尤物在线| 久久日韩精品一区二区五区| 久久99久久精品国产| 国模无码一区二区三区| 国产麻豆午夜三级精品| 成人福利网站在线观看11| 羞羞色院91蜜桃| 蜜臀久久99精品久久久画质超高清| 4438全国成人免费| 中文字幕亚洲精品在线| 黄色免费成人| 久久理论片午夜琪琪电影网| 久久久国产成人| 欧美精品国产一区| 欧美成人黑人xx视频免费观看| 国产三级精品三级观看| 欧美一级精品片在线看| 在线观看免费高清视频97| 国产视频三区四区| 欧美日韩中文字幕一区二区三区| 亚洲图中文字幕| 成人免费无遮挡无码黄漫视频| 色综合综合色| 国产一区二区av| 女人十八毛片嫩草av| 色婷婷亚洲mv天堂mv在影片| 久久伊人精品天天| 精品99在线观看| 亚洲日本国产| 日本一欧美一欧美一亚洲视频| 日韩综合在线观看| 美腿丝袜亚洲三区| 91网站在线看| 高h放荡受浪受bl| 久久综合999| 性欧美大战久久久久久久免费观看| 91福利在线视频| 亚洲欧美日韩电影| 99色这里只有精品| 丝袜老师在线| 欧美日韩国产高清一区| 下面一进一出好爽视频| 久久国产精品免费精品3p| 亚洲男人的天堂网站| 精品一区二区6| 欧美天天在线| 国产91色在线播放| 国产美女主播在线观看| 99久久综合精品| 天堂精品一区二区三区| 尤物yw193can在线观看| 疯狂做受xxxx欧美肥白少妇| 一级在线免费视频| 岛国精品一区| 色偷偷88888欧美精品久久久| 久久久精品视频免费| 日精品一区二区三区| 亚洲最大的成人网| 视频三区在线观看| 综合色天天鬼久久鬼色| 日韩av片在线看| 高清一区二区| 精品视频在线导航| h色网站在线观看| 午夜一区不卡| 91在线网站视频| 黄色av网站在线免费观看| 综合中文字幕亚洲| av免费在线播放网站| 深夜福利一区| 日韩亚洲成人av在线| 国产精品黄色大片| 国产美女精品在线| 四虎永久国产精品| 欧产日产国产精品视频| 91精品国产综合久久香蕉麻豆| 日本黄色特级片| 欧美日韩国产亚洲一区| 国产精品一区二区三区在线播放 | 乱色588欧美| 日韩伦理av| 欧美日韩电影在线| 蜜桃av免费看| 亚洲三级色网| 69堂成人精品视频免费| 91精品国产综合久久久久久豆腐| 欧美日韩精品在线观看| 在线观看一区二区三区四区| 婷婷另类小说| 国产精品美女久久久久av超清| 色视频在线观看免费| 亚洲一二三四区| 制服下的诱惑暮生| 亚洲成人免费| 成人国产精品久久久| 超碰国产在线观看| 日本久久一区二区| 国产黄片一区二区三区| 国产欧美午夜| 精品国产一区二区三区日日嗨| 欧洲在线视频| 欧美大片一区二区| 麻豆国产尤物av尤物在线观看| 精品一区二区在线视频| 亚洲激情一区二区| 国产精品99| 最近2019年中文视频免费在线观看 | 午夜精品国产精品大乳美女| 亚洲第一色视频| 亚洲综合精品自拍| 国产精品一级无码| 国内激情久久| 精品国产综合久久| 国产精品伦理| 一本色道久久88综合亚洲精品ⅰ| 免费在线不卡av| 中文字幕亚洲电影| 51自拍视频在线观看| 欧美不卡在线| 激情小说网站亚洲综合网| 51精品视频| 亚洲欧洲成视频免费观看| 黄色网址中文字幕| 国产精品久线观看视频| 热久久久久久久久| 国产一区日韩一区| 精品欧美日韩在线| 欧美成人ⅴideosxxxxx| 国产亚洲精品美女久久久| 黄色污污视频软件| 亚洲欧美在线视频观看| 国产麻豆剧传媒精品国产| 亚洲久久在线| 亚洲国产精品久久久久婷婷老年| 色999韩欧美国产综合俺来也| 久久天天躁日日躁| 亚洲国产www| 亚洲高清三级视频| 精品国产av无码| 国产在线麻豆精品观看| 久艹视频在线免费观看| 神马电影久久| 91老司机在线| www.成人爱| 久久在线观看视频| 天堂在线中文字幕| 欧美精品九九99久久| 久久这里只有精品国产| 久久久国产精品午夜一区ai换脸| 五月天婷婷亚洲| 一二三区精品| 在线天堂一区av电影| 久久99精品久久久久久欧洲站| 国产精品久久久av| 成人性生交大片免费看网站 | 99久久一区三区四区免费| 波多视频一区| 美女性感视频久久久| 日韩成人黄色| 日韩一区二区在线观看| 人人草在线观看| 一区二区三区免费在线观看| 午夜理伦三级做爰电影| 国产精品综合二区| 九一精品在线观看| 亚洲精品1区2区| 午夜啪啪免费视频| 国产欧美日韩精品一区二区免费| 91丨九色丨国产| 成人精品三级| 91国内揄拍国内精品对白| 黄色网页在线播放| 中国人与牲禽动交精品| 亚洲 国产 欧美 日韩| 91精品国产91综合久久蜜臀| 国产午夜精品久久久久| 亚洲国产人成综合网站| 希岛爱理中文字幕| 欧美国产日韩在线观看| 噜噜噜在线视频| 国产成人精品亚洲777人妖| 国产精品无码专区av在线播放| 黑丝一区二区| 久久视频免费在线| 欧美综合另类| 欧美国产二区| 免费看成人人体视频| 99伊人久久| 久久久久久久久成人| 国产日韩精品视频| 成人做爰视频www| 国产a∨精品一区二区三区不卡| 97蜜桃久久| 久久免费成人精品视频| 欧美色图天堂| 九九久久精品一区| av网站在线看| 萌白酱国产一区二区| 麻豆av在线免费看| www.日韩不卡电影av| 毛片在线播放网站| 亚洲老头同性xxxxx| 水莓100国产免费av在线播放| 亚洲国产中文字幕久久网| 亚洲男人第一天堂| 亚洲第一av网站| 色wwwwww| 亚洲精品一区中文| 欧美日韩视频精品二区| 亚洲精品一区二区三区不| 青青操视频在线| 亚洲偷熟乱区亚洲香蕉av| 国产在线一二三| 中文字幕亚洲欧美一区二区三区 | 91免费黄视频| 国产日韩欧美| 免费无码av片在线观看| 久久久久国内| 污视频网址在线观看| 韩国v欧美v亚洲v日本v| 韩国三级与黑人| www.激情成人| 国产精品久久免费观看| 国产精品久久久久天堂| 国产激情无码一区二区三区| 亚洲自拍偷拍图区| 欧美不卡视频在线观看| 色88888久久久久久影院按摩| 中文 欧美 日韩| 欧美一区二区视频免费观看| 二区三区在线视频| 国产视频综合在线| 在线播放麻豆| 久久97精品久久久久久久不卡 | 亚洲444eee在线观看| 日本在线播放视频| 欧美午夜免费电影| 99热这里只有精品1| 亚洲国内精品视频| 国产黄色免费在线观看| 久久亚洲欧美日韩精品专区| 国产福利在线免费观看| 国产精品扒开腿做爽爽爽的视频| 99精品国产九九国产精品| 国产精品一区二区三区精品| 欧美色爱综合| www.成年人视频| 日本系列欧美系列| 亚洲美女精品视频| 国产欧美精品一区二区色综合朱莉| 我要看黄色一级片| 欧美日在线观看| 国产又大又黑又粗| 日韩的一区二区| 国产激情视频在线观看| 日本一区二区三区在线播放| 国产精品一区二区精品视频观看| 久久国产精品久久精品国产| 久久久久美女| 精品久久久久久久无码| 国产99久久久国产精品免费看| 成年人免费观看视频网站| 一区二区三区在线视频免费观看| 久久青青草原亚洲av无码麻豆| 日韩欧美国产高清| 午夜伦全在线观看| **欧美日韩vr在线| 日韩在线成人| 一区二区三区不卡在线| 美女诱惑一区| 亚洲av成人精品一区二区三区 | 精品无人国产偷自产在线| 成人欧美在线| 国产精品入口日韩视频大尺度| 日韩手机在线| 国产玉足脚交久久欧美| 国产一区在线视频| 国产精品酒店视频| 色一情一伦一子一伦一区| 亚洲女同志亚洲女同女播放| 久久亚洲精品网站| 免费成人黄色网| 日韩亚洲视频在线| 亚洲视频大全| 亚洲一区和二区| 亚洲人成在线播放网站岛国 | 久久国产精品第一页| 精品人妻互换一区二区三区| 亚洲成人资源网| 性欧美8khd高清极品| 久久视频中文字幕| 国产免费区一区二区三视频免费 | 国产欧美一区二区三区在线看| 九色精品91| 久热免费在线观看| 久久久精品影视| chinese国产精品| 亚洲色图狂野欧美| 国偷自产一区二区免费视频| 蜜桃麻豆91| 久久aⅴ国产紧身牛仔裤| 2一3sex性hd| 调教+趴+乳夹+国产+精品| 人妻夜夜爽天天爽| 91精品成人久久| 日韩精品免费一区二区三区竹菊| 777精品久无码人妻蜜桃| 9色porny自拍视频一区二区| 日韩精品一区二区不卡| 亚洲福利视频免费观看| 精品捆绑调教一区二区三区| 精品国产区在线| 久久国产日韩| 美国美女黄色片| 欧美日韩久久一区二区| 里番在线观看网站| 亚洲一区二区久久久久久久| 欧美日韩99| 野花社区视频在线观看| 色综合久久中文综合久久97| 国产精品毛片一区二区三区四区| 国产一区二区在线免费视频| 图片区亚洲欧美小说区| 师生出轨h灌满了1v1| 亚洲高清视频中文字幕| 欧美日韩免费做爰大片| 国产免费一区视频观看免费| 亚洲国产精品综合久久久| 四虎精品一区二区| 一本色道久久综合亚洲精品按摩| 91caoporm在线视频| 91pron在线| 亚洲在线黄色| 国产人与禽zoz0性伦| 日韩精品一区二区三区中文不卡 | 国产人妻精品午夜福利免费| 午夜精彩视频在线观看不卡| 成人精品福利| ts人妖另类在线| 久久免费高清| 男女性高潮免费网站| 日韩电影中文 亚洲精品乱码 | 国产高清精品一区二区| 久久一区中文字幕| 一区二区三区影视| 亚洲国产美女精品久久久久∴| 日韩av超清在线观看| 日韩免费在线观看av| 久久日韩精品一区二区五区| 国产区精品在线| 欧美专区福利在线| 午夜精品毛片| 欧美精品黑人猛交高潮| 欧美疯狂性受xxxxx喷水图片| av毛片午夜不卡高**水| 在线综合视频网站|