精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

北大發布學術搜索評測ScholarSearch:難倒一眾DeepResearch的“開卷考試”

人工智能 新聞
北京大學DS-Lab發布ScholarSearch,這是首個專門用于評估大語言模型在學術研究中復雜信息檢索能力的數據集,包含223道高難度的學術檢索題目及其答案。

LLMs能當科研助手了?

北大出考題,結果顯示:現有模型都不能勝任。

北京大學DS-Lab發布ScholarSearch,這是首個專門用于評估大語言模型在學術研究中復雜信息檢索能力的數據集,包含223道高難度的學術檢索題目及其答案。

它對具備聯網搜索能力的代表性模型及純推理模型進行了評估,結果顯示,頂尖的純推理模型,如GPT-4.1、DeepSeek-R1,在處理這些問題時準確率普遍低于9%。

具備搜索功能的模型,相較于其無搜索能力的版本,準確率有顯著提升,例如,GPT-4o-mini的準確率提升超過四倍。

盡管瀏覽能力帶來了顯著改進,但即便是最先進的搜索增強型模型,如GPT-4o-search-preview,其準確率僅為18.83%

圖片

方法

OpenAI的Deep Research、Grok的DeepSearch、Gemini的Deep Research以及月之暗面的Kimi-Researcher等,以“深度搜索”功能為核心,為攻克高難度信息檢索任務提供了新的范式。

然而,學術界與業界目前尚未建立起一套公認的評估體系與標準數據集,用以系統性地檢驗這些新興模型在真實學術研究場景下的實際效能。

北京大學DS-Lab發布ScholarSearch,旨在對LLMs的檢索、信息整合及推理能力進行綜合性、極限性考驗。

研究團隊招募了來自北京大學各個學院的本科和研究生志愿者,并為他們提供了集中培訓。志愿者從公開可訪問的在線出版物和網站中選擇材料,以制定需要網絡搜索解答的學術問題。

為確保問題能真正考驗模型的深度研究能力,所有初步構建的問題必須通過以下雙重負向篩選標準的驗證:

1.不能通過Grok 3的Thinking模式獲得正確答案,確保問題需要深入廣泛的信息檢索能力。

2.Grok 3的DeepSearch模式或Gemini 2.5 Pro的Deep Research功能至少有一個未能提供正確答案,確保問題的高難度。

成功滿足上述標準的問題隨后提交給專門的審核團隊進行數據審核,以確保以下幾點:

答案唯一性:每個問題對應唯一的、明確無誤的答案。來源可訪問性:回答問題所需的參考來源可通過互聯網公開獲取。學術正確性:問題的學術價值和答案的正確性根據提供的來源進行驗證。

任何未能達標的問題都將被退回進行迭代修訂,直至合格。

圖片

圖片

ScholarSearch具有以下核心特點:

高度的真實性與應用價值:數據集中的所有問題均源于真實的學術研究與學習情境。其設計旨在忠實反映研究者面臨的實際信息挑戰,保證了評估結果能夠真實地反映模型在實際應用中的效能。

卓越的挑戰性與深度ScholarSearch的難度經過嚴格審查,確保即便是頂尖的模型(如 Grok DeepSearch 或 Gemini Deep Research)也難以一次性給出正確答案。大多數問題需要進行多次深度搜索才能得出答案,充分考驗模型的復雜推理和信息整合能力。

廣泛的學科覆蓋:為確保評估的全面性與代表性,ScholarSearch圍繞科學與工程領域(Science & Engineering)和社會科學與人文學科領域(Social Sciences & Humanities)兩大門類進行構建,共涵蓋了15個不同的細分學科。

圖片

結果

研究團隊使用ScholarSearch對具備聯網搜索能力的代表性模型及純推理模型進行了評估,結果如圖所示。評估結果明確揭示,現有模型的整體表現欠佳,其學術搜索能力亟待提升。

圖片

僅憑推理無法解決學術研究問題: 實驗明確指出,ScholarSearch數據集中的問題無法僅通過模型的預訓練知識和推理能力解決。頂尖的純推理模型,如GPT-4.1、DeepSeek-R1,在處理這些問題時準確率極低,普遍低于9%。這表明學術查詢具有高度復雜性,這超出了靜態、內嵌知識庫的能力范疇。

瀏覽能力顯著提升模型性能: 賦予模型訪問互聯網的瀏覽能力可以提高其準確性。具備搜索功能的模型,相較于其無搜索能力的版本,準確率有顯著提升,例如,GPT-4o-mini的準確率提升超過四倍。此外,搜索能力也平衡了模型在不同學科領域的表現,在科學與工程領域和社會科學與人文學科領域達到了相當的水平。這一結果證實,對于解決復雜的學術問題,進行實時信息檢索、訪問數據并進行交叉引用的能力至關重要。

當前搜索模型仍不足以應對深度學術探究: 盡管瀏覽能力帶來了顯著改進,但即便是最先進的搜索增強型模型,如GPT-4o-search-preview,準確率僅為18.83%。在解決復雜學術問題方面仍表現不充分。這揭示了當前模型在進行深度研究、整合專業知識以及執行復雜的多源推理時存在的差距,也揭示了Deep Research模型的研發需求。

ScholarSearch作為一個在深度搜索領域的學術基準測試集,不僅衡量了模型的當前能力,更揭示了現有技術與真實學術工作流之間的核心差距,為未來的大語言模型掌握復雜綜合的語境理解、海量資料來源的批判準確性驗證,提供了有挑戰的參考。

論文鏈接:https://arxiv.org/abs/2506.13784

數據集鏈接:https://huggingface.co/datasets/PKU-DS-LAB/ScholarSearch

課題組huggingface主頁:https://huggingface.co/PKU-DS-LAB

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-10-29 09:00:00

2025-07-03 02:12:00

RAG檢索系統

2025-04-09 13:25:34

2024-10-24 23:37:33

2025-09-25 10:25:29

2024-07-08 08:15:00

2015-03-11 18:49:53

Testin眾測云測

2025-11-19 13:40:56

昇騰

2025-01-22 13:40:00

2015-02-09 10:40:47

Testin眾測移動App

2018-09-27 10:39:25

螞蟻金服開放分布式

2020-02-14 13:06:05

騰訊面試算法

2025-06-03 08:39:00

2020-11-21 00:47:34

眾安天下SaaS安全

2025-02-03 12:29:29

2025-06-25 09:32:11

2009-10-20 09:32:29

微軟Visual Stud.NET 4.0

2025-09-18 09:56:47

2025-09-01 08:51:00

點贊
收藏

51CTO技術棧公眾號

国产 日韩 亚洲 欧美| 国产精品99久久久久久久久久久久| 色免费在线视频| 宅男网站在线免费观看| 成人午夜av影视| 91av在线免费观看| 污污视频网站在线免费观看| 免费看一区二区三区| 五月天一区二区三区| 日本一区二区三区在线视频| 国产特黄一级片| 欧美亚洲视频| 九九久久久久99精品| 白丝女仆被免费网站| 久久视频社区| 色激情天天射综合网| 2021狠狠干| 欧洲综合视频| 国产成人av网站| 国产精品久久久久久久久久久久久久 | 任你操精品视频| 久久资源综合| 91精品国产色综合久久| 日本黄色三级大片| 啪啪免费视频一区| 国产精品麻豆久久久| 精品欧美一区二区精品久久| 国产熟女一区二区丰满| 免费精品视频在线| 2018日韩中文字幕| 久久精品一级片| 久久久久久免费视频| 国产亚洲欧洲在线| 亚洲av无码一区二区二三区| 99精品在免费线中文字幕网站一区| 欧美丝袜丝nylons| 国产偷人视频免费| 麻豆视频在线观看免费网站黄| 亚洲天天做日日做天天谢日日欢 | 青青草97国产精品麻豆| 日韩国产欧美区| 久久人妻少妇嫩草av蜜桃| 国产精品美女久久久久人| 色就色 综合激情| 日韩人妻精品无码一区二区三区| 亚洲区欧洲区| 亚洲女人的天堂| 欧美 另类 交| 快射视频在线观看| 中文字幕中文字幕一区二区| 亚洲精品国产精品久久| 992tv免费直播在线观看| 久久久久九九视频| 欧美日韩精品免费在线观看视频| 午夜视频免费在线| 99久精品国产| 久久riav二区三区| 国产在线观看黄| 国产亚洲va综合人人澡精品| 青青草成人激情在线| 激情福利在线| 国产精品三级久久久久三级| 亚州欧美一区三区三区在线| av中文字幕一区二区三区| 欧美激情中文字幕一区二区| 亚洲一区二区三区午夜| 麻豆系列在线观看| 一区二区三区欧美在线观看| 久久久久久av无码免费网站下载| 亚洲精品白浆| 无码av中文一区二区三区桃花岛| 玩弄中年熟妇正在播放| 日韩成人av电影| 欧美日韩一区二区在线视频| theporn国产精品| 日韩激情综合| 日韩激情片免费| 亚洲а∨天堂久久精品2021| 日韩欧美视频| 九九精品在线观看| 欧美日韩综合在线观看| 免费高清成人在线| 91久久综合亚洲鲁鲁五月天| 国产小视频一区| 久久精品在线观看| 一级特黄录像免费播放全99| aaa大片在线观看| 五月婷婷综合激情| www亚洲成人| 99精品在免费线中文字幕网站一区 | av五月天在线| 国产一区二区三区国产精品| 亚洲国产成人av在线| b站大片免费直播| 91精品高清| 国产91精品青草社区| 一本色道久久综合无码人妻| 国产91精品精华液一区二区三区 | 日本一区二区三区四区视频| 国产又黄又粗又长| 99国产精品视频免费观看| 色播五月综合| 不卡av免费观看| 欧美亚洲精品一区| 国产精品久久久久久在线观看| 激情婷婷综合| 欧美国产中文字幕| 欧美成人一区二区视频| 成人免费视频播放| 一区二区三区在线视频看| 丰满的护士2在线观看高清| 欧美网站大全在线观看| 日韩精品人妻中文字幕有码| 三级电影一区| 2020国产精品视频| 精品黑人一区二区三区国语馆| 久久久精品日韩欧美| 天天做天天躁天天躁| 日韩漫画puputoon| 日韩电影视频免费| 麻豆视频在线观看| 久久精品国产一区二区三| 久久av免费观看| 久草在线视频福利| 欧美一级高清片在线观看| 亚洲ⅴ国产v天堂a无码二区| 亚洲视频二区| 91九色露脸| 久久黄色美女电影| 欧美性三三影院| 99久久久无码国产精品性| 亚洲高清电影| 国产99午夜精品一区二区三区| 自拍视频在线网| 色94色欧美sute亚洲线路一ni| 亚州av综合色区无码一区| 欧美久久久久| 亚洲xxxxx电影| 日本福利在线| 欧美色偷偷大香| 色噜噜日韩精品欧美一区二区| 最新日韩在线| 国产在线一区二| 98色花堂精品视频在线观看| 欧美一卡2卡3卡4卡| 亚洲一级生活片| 精品在线一区二区| 一区二区精品免费视频| 欧美xxxx性| 少妇久久久久久| 怡红院成永久免费人全部视频| 国产午夜精品理论片a级大结局| 99精品人妻少妇一区二区| 日韩福利视频一区| 欧美在线观看网站| 暖暖视频在线免费观看| 色欧美片视频在线观看在线视频| 久久精品一区二区免费播放| 美女视频一区免费观看| 日本电影一区二区三区| 九九热线视频只有这里最精品| 国产午夜精品免费一区二区三区 | 亚洲精品一线| 欧美精品一区二区三区蜜臀| 日本最新中文字幕| 久久久久国色av免费看影院| 日韩精品你懂的| 亚洲精品午夜av福利久久蜜桃| 亚洲已满18点击进入在线看片| 日皮视频在线观看| 亚洲韩国日本中文字幕| 老熟妇一区二区三区| 国产精品久久国产精麻豆99网站| 欧美精品 - 色网| 国自产拍偷拍福利精品免费一 | 欧洲乱码伦视频免费| 国产欧美精品va在线观看| 成人免费高清| 亚洲成人aaa| 亚洲图片欧美日韩| 亚洲日本护士毛茸茸| 亚洲天堂av网站| 天使萌一区二区三区免费观看| 亚洲国产欧美日韩| 色妞ww精品视频7777| 欧美有码在线视频| 1769在线观看| 欧美精品一区二区不卡 | 视频一区二区中文字幕| 伊人情人网综合| 99视频有精品| 国产精品日韩欧美大师| 免费大片在线观看www| 欧美一区二区三区喷汁尤物| 国产在线视频你懂的| 久久精品夜色噜噜亚洲a∨ | 亚洲在线国产日韩欧美| 午夜精品福利一区二区| 无码国模国产在线观看| 欧美一区二区.| 精产国品自在线www| 亚洲精品97久久| 亚洲综合网av| 午夜久久久久久久久久一区二区| 国产午夜福利一区| 成人免费视频网站在线观看| www.天天射.com| 精品电影一区| 在线观看一区欧美| 亚洲制服一区| 成人一区二区在线| 九九热这里有精品| 欧美伊久线香蕉线新在线| av网址在线| 伊人激情综合网| 熟妇人妻一区二区三区四区| 777色狠狠一区二区三区| 黄色免费av网站| 亚洲国产综合色| 91久久久久久久久久久久久久| 99久久精品国产一区二区三区| 中文字幕一区二区在线观看视频| 久久久综合网| 精品国产一区三区| 欧美激情五月| 黄色网址在线免费看| 欧美日韩一二三四| 久久久久久国产精品mv| 影音先锋欧美激情| 亚洲aⅴ日韩av电影在线观看| 日本一区免费网站| 欧美中文在线观看| sqte在线播放| 欧美国产在线电影| 羞羞的视频在线观看| 日日噜噜噜夜夜爽亚洲精品| 国产亚洲依依| 亚洲免费av片| 日本一级在线观看| 亚洲第一色在线| 高h调教冰块play男男双性文| 宅男噜噜噜66一区二区66| 亚洲高清在线看| 色婷婷av一区二区三区软件| 国产精品视频免费播放| 激情懂色av一区av二区av| 国产第一页在线播放| 亚洲一区二区三区国产| 欧美激情一区二区视频| 樱花草国产18久久久久| 清纯粉嫩极品夜夜嗨av| 一区二区三区日韩欧美精品 | 欧美性猛交xxxx久久久| 你懂的国产在线| 色婷婷亚洲综合| 69av视频在线观看| 欧美在线免费播放| 国产天堂第一区| 欧美色老头old∨ideo| 中文字幕 视频一区| 欧美日韩免费一区二区三区| 国产精品亚洲欧美在线播放| 5月丁香婷婷综合| 成人h动漫精品一区二区无码| 精品久久久久久综合日本欧美| 免费av网站观看| 精品一区二区三区电影| 国产有码在线| 久久久成人精品| 青青草原av在线| 91极品视频在线| 九九热线视频只有这里最精品| 国产精品亚洲精品| 日韩区一区二| 精品一区二区国产| av一区二区在线播放| 久久免费视频2| 亚洲国产mv| 成人午夜激情av| 国产在线视频一区二区三区| 国产精品偷伦视频免费观看了 | 老牛影视免费一区二区| 国产欧美日韩在线一区二区| 亚洲欧洲精品一区| 亚洲午夜激情在线| 国产一区二区视频免费在线观看| 久久国产人妖系列| 9.1在线观看免费| 国产日韩欧美不卡| 青春草免费视频| 色综合久久88色综合天天6| 亚洲视频久久久| 精品99999| 日本在线免费| 97香蕉超级碰碰久久免费的优势| 外国电影一区二区| aa日韩免费精品视频一| 禁果av一区二区三区| 欧美做受777cos| 久久久久免费| 成人三级做爰av| 国产日韩欧美综合在线| 久久久夜色精品| 欧美特级限制片免费在线观看| 亚洲成人一级片| 中文字幕亚洲国产| 国产亚洲成av人片在线观看| 成人在线精品视频| 国产一区二区三区91| 日韩 欧美 视频| 激情文学综合丁香| av男人的天堂av| 亚洲电影一区二区| 97免费观看视频| 国产一区二区三区18| 超碰在线cao| 999视频在线免费观看| 手机在线电影一区| 免费在线观看的毛片| 成人av网在线| 黄色片在线观看网站| 91成人国产精品| 天堂中文在线8| 久久久久久伊人| 久久伊人精品| 在线视频不卡国产| 日本在线播放一区二区三区| 性欧美丰满熟妇xxxx性久久久| 亚洲精品国产精华液| 国产又爽又黄免费软件| 亚洲最新av在线网站| 午夜影院在线播放| 韩国成人一区| 亚洲精品极品| 蜜臀视频在线观看| 亚洲一区二区三区精品在线| 精品国产av鲁一鲁一区| www.xxxx精品| 成人黄色毛片| 天天综合狠狠精品| 免费一级片91| 国产又粗又长免费视频| 在线观看日韩电影| а天堂8中文最新版在线官网| 国产97在线视频| 欧美激情在线免费| www.四虎成人| 国产无人区一区二区三区| 少妇高潮av久久久久久| 亚洲欧美激情另类校园| 欧美成人资源| 日韩少妇中文字幕| 美腿丝袜亚洲三区| 美国黄色片视频| 91精品国模一区二区三区| 操你啦视频在线| 不卡视频一区二区| 伊人精品在线| 日韩乱码人妻无码中文字幕久久| 日韩欧美高清在线视频| 男女污视频在线观看| 国产精品男人的天堂| 欧美高清视频手机在在线| 亚洲va在线va天堂va偷拍| 亚洲欧美偷拍另类a∨色屁股| 精品国产av一区二区| 国语自产精品视频在线看| 国产一区二区av在线| 毛片av在线播放| av网站免费线看精品| 欧美激情亚洲综合| 亚洲精品自拍视频| 台湾成人免费视频| 黄频视频在线观看| 国产成人av一区二区三区在线观看| 久久这里只有精品免费| 日韩精品免费在线| 国产一区二区三区朝在线观看| 亚洲一区精彩视频| 国产成人激情av| 日韩精品久久久久久免费| 一本色道久久88亚洲综合88| **欧美日韩在线| 日本福利视频一区| 久久精品一区二区三区不卡| 在线观看免费中文字幕| 欧美精品在线免费| 一区二区三区视频免费观看| 日韩av在线中文| 亚洲成人手机在线| 国产69久久| 成人综合av网| 日本成人中文字幕| 国产性一乱一性一伧一色| 亚洲精品影视在线观看| 不卡的国产精品| 国产精品动漫网站| 亚洲精品中文在线观看| 日本一区高清| 5566av亚洲|