精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Search版o1:推理過程會主動查資料,整體性能優于人類專家,清華人大出品

人工智能 新聞
在博士級別的科學問答、數學、代碼能力的11項評測中,能力顯著提升,拿下10個第一!

一個新框架,讓Qwen版o1成績暴漲

在博士級別的科學問答、數學、代碼能力的11項評測中,能力顯著提升,拿下10個第一!

這就是人大、清華聯手推出的最新「Agentic搜索增強推理模型框架」Search-o1的特別之處。

圖片

項目團隊成員發現,o1和o1類模型在推理過程中表現突出,但卻存在“知識不足”的明顯缺陷——

推理步驟太長/模型知識不足時,推理過程就很容易卡殼,導致推理鏈中的錯誤傳遞。而其中任何知識誤差都可能破壞整個推理鏈,最終對答案的正確性造成影響。

好著急,在線等,怎么辦?

Search-o1的解題思路是:暫停推理,去搜索查找缺少的知識/資料,然后再回來繼續推理。

就像咱人類思考不明白,就去查查資料,然后就想明白了似的。

研究者在初步實驗中發現,類o1推理模型在處理復雜問題時,平均每個推理過程中會出現超過30次的不確定詞匯,be like“或許”“可能”等。

這不僅增加了推理的復雜性,還使得手動驗證推理過程變得更加困難。因此,如何在推理過程中自動補充所需知識,成為提升大型推理模型可信度的關鍵。

圖片

針對于此,而Search-o1的解決辦法是這樣的:

結合RAG和用于精煉檢索文檔的Reason-in-Documents模塊增強框架,將Agentic搜索工作流整合到推理過程中,旨在通過自主知識檢索,提升大型推理模型的可靠性和適用性。

如此一來,推理模型在遇到不確定的知識點時,就能都發揮主觀能動性板去檢索外部知識,同時保持整個過程的連貫性,讓自己的推理能力更進一步。

研究團隊做了廣泛的測試后發現,在科學、數學和編碼等復雜推理任務,以及六個開放領域QA基準測試中,Search-o1的表現杠杠的。

圖片

目前項目已開源,抱抱臉和GitHub可自取。按慣例,本文文末有指路直通車。

(特別注明:Search-o1框架使用的基礎模型是開源的QwQ-32B-Preview)

Search-o1新框架

其實自從o1問世后,原生推理“在遇到知識缺口時易出錯”這一問題就已經被擺到臺前。

已經有很多團隊來嘗試解決上述問題,比如將策略和獎勵模型與蒙特卡洛樹搜索相結合(但這并沒有將推理內化到模型中);或者在訓練過程中將故意錯誤納入推理路徑,以部分內化這些能力;也有研究者選擇蒸餾訓練數據。

然而,這些方法受到對靜態參數化模型的依賴的限制,當內部知識不足時,這些模型無法利用外部世界的知識。

后來,又有研究團隊提出利用RAG,在推理模型中引入檢索機制,來解決生成模型中靜態參數的限制,允許訪問外部知識來解決更復雜的問題。

當出現不確定性時(例如化合物的結構),這種方法會生成有針對性的搜索查詢(例如,“反式肉桂醛的結構”);但是,檢索到的文檔通常包含冗長且不相關的信息,可能會破壞推理流程并損害連貫性。

因此,團隊提出Search-o1的核心動機,是通過自主檢索來增強具有類o1的推理模型。

Search-o1將推理模型的推理過程,和兩個核心組件集成在一起:

  • Reason-in-Documents模塊
  • Agentic RAG機制

圖片

Reason-in-Documents模塊

先來說說Reason-in-Documents模塊

在Search-o1框架中,當 agentic RAG機制檢索到的外部知識文檔可能冗長且包含冗余信息,這些內容直接輸入給推理模型,可能會干擾接下來的推理。

于是團隊就提出了Reason-in-Documents,這個模塊是獨立于主推理鏈的。

圖片

它的作用是基于當前搜索查詢、先前推理步驟和檢索文檔,先分析文檔生成中間推理序列,再生成與當前推理步驟高度相關的精煉知識,并整合到推理鏈。

按照規定的輸出格式,若文檔提供了有用信息,則以 “Final Information [Helpful information]” 的形式輸出精煉后的知識。

若未找到有用信息,則輸出 “Final Information No helpful information found.”。

以此來確保推理過程簡潔且專注,以及推理過程的連貫性和邏輯一致性。

Agentic RAG機制

再來說說Agentic RAG機制

Search-o1讓模型能夠在推理過程中,自主決定該在什么時候檢索外部知識。

單個問題推理時,對于每個問題,Search-o1會先初始化推理序列q。

由于推理模型M生成推理鏈R,這個過程可能會生成封裝在特殊符號 <|begin_search_query|> 和 <|end_search_query|> 中的搜索查詢。

當檢測到 <|end_search_query|> 符號后,會提取相應的搜索查詢qsearch,觸發檢索函數Search以獲取相關的外部文檔D。

圖片

接著把外部文檔交由Reason-in-Documents模塊處理,然后把結果整合回推理鏈。

批量推理時,Search-o1會對這批問題創建推理序列集,并行生成tokens,檢索和精煉文檔后,更新推理鏈,提高系統處理多輸入的吞吐量。

上述的所有過程都能反復進行,確保模型在整個推理過程中,都能獲得所需的外部知識支持。

實驗設置與結果

為了驗證Search-o1的有效性,研究人員進行了廣泛的實驗,評估任務包括以下兩類:

第一種是復雜推理任務

包括PhD級別的科學問答(GPQA)數學(MATH500、AMC2023、AIME2024)代碼(LiveCodeBench)等。

圖片

Table 1數據顯示,在復雜推理任務中,所有的11個測試集上,Search-o1在其中10個任務上,都優于原生推理和傳統RAG方法。

僅有一項——LiveCodeBench之easy的成績57.7。

這個成績在Qwen2.5-Coder-32B和QwQ-32B上的表現低于原生推理,在RAG-Qwen2.5-32B、RAgent-QwQ-32B的比凹陷低于傳統RAG方法。

多提一嘴,項目論文中,研究團隊還展示了Search-o1與人類專家的比較。

研究者將Search-o1的性能和GPQA擴展集中各個領域的人類專家進行了比較人類,下面的Table 2展示的是專家在物理、化學、生物等各個學科的人類專家成績。

圖片

結果顯示,Search-o1在整體性能(57.9)物理學(68.7)和生物學(69.5)方面都優于人類專家。

不過在化學子領域落后于化學家,Search-o1是40.7,人類專家是72.6。

第二種是開放域問答基準,包括:

  • 單跳QA,如自然問題(NQ)、TriviaQA等。
  • 多跳QA,如HotpotQA、2WikiMultihopQA、MuSiQue、Bamboogle等。

圖片

Table 3數據顯示,Search-o1在多跳QA任務表現尤為突出,平均準確率提升了近30%,優于所有基線模型。

不過相比較而言,Search-o1在單跳任務上的成績提升不顯著。

研究人員在最后表示:

Reason-in-Documents模塊 + Agentic RAG機制,通過有效解決模型本身知識不足的問題,增強了推理模型的可信度和實用性。

在復雜問題解決場景中,Search-o1為更值得信賴和更有效的智能系統鋪平了道路

目前外網沖浪了一下,網友們表示對這個工作還是非常肯定的。

尤其是對它“模擬人類認知過程”和“增強推理模型推理能力”這倆方面。

圖片

作者團隊

Search-o1的通訊作者是人大高瓴人工智能學院的教授竇志成

他從南開大學博士畢業后,先加入了MSRA擔任研究員,2014年9月份加入中國人民大學,并于2018年8月破格晉升教授。

圖片

其余的作者包括Xiaoxi Li,Guanting Dong, Jiajie Jin,Yuyao Zhang,Yujia Zhou,Yutao Zhu, Peitian Zhang。

其中,Yujia Zhou是團隊中唯一一個來自清華的同學(其余都來自人大)

Zhou目前在清華大學任博士后研究員,與清華大學科研院院長、計算機科學與技術系教授劉奕群合作。

這位同學在人大取得博士學位,導師正是竇志成。

arXiv:https://arxiv.org/abs/2501.05366
GitHub:https://github.com/sunnynexus/Search-o1
抱抱臉:https://huggingface.co/papers/2501.05366

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-09-28 08:01:06

MySQL事務失效

2010-01-05 13:59:22

網吧交換機

2017-01-15 09:56:48

LinuxIO性能

2025-11-10 08:51:00

LLMOpenAI模型

2025-01-21 13:15:16

搜索版Search-o1框架

2020-11-24 20:54:17

數據

2010-02-22 10:38:44

Web交換技術

2025-03-10 08:10:00

AI研究安全

2014-06-12 19:53:08

達夢DMETLETL

2024-09-24 11:01:03

2011-12-21 17:12:07

2024-11-07 15:40:00

2024-11-21 14:00:00

模型AI

2023-10-06 16:56:19

Python二進制工具

2025-08-01 02:00:00

2024-11-25 08:30:00

2024-09-13 10:14:36

2023-09-25 08:06:44

工具非阻塞式接口

2024-09-29 13:07:16

2025-02-06 09:11:54

點贊
收藏

51CTO技術棧公眾號

免费a级毛片在线观看| 国产高清中文字幕| 日韩视频一区二区三区四区| 亚洲午夜在线电影| 日韩久久久久久久| 精品国自产在线观看| 在线播放一区| 色诱女教师一区二区三区| 91aaa精品| 成人免费网站视频| 亚洲欧美另类久久久精品2019| 国产精品成人一区二区三区| 国产91av在线播放| 亚洲无线一线二线三线区别av| 日韩精品在线免费观看| 日本在线观看视频一区| 黄色成人免费网| 亚洲一区二区视频在线观看| 亚洲高清123| 午夜福利一区二区三区| 国内精品伊人久久久久av一坑| 97人人做人人爱| 黑人操日本美女| 国产一区二区在线| 亚洲大胆人体在线| 国产aⅴ爽av久久久久| 欧美1级2级| 午夜一区二区三区视频| 四虎免费在线观看视频| 国产高清视频在线观看| www..com久久爱| 亚洲精品免费一区二区三区| 91青青草视频| 亚洲视频www| 欧美国产精品va在线观看| 亚洲一二三精品| 久久综合影院| 亚洲国产美女精品久久久久∴| 黄色一级片免费播放| 久久精品嫩草影院| 色哟哟一区二区在线观看| www精品久久| 青草在线视频| 一区二区三区美女| 中文字幕第一页亚洲| av影片在线看| 国产精品视频看| 亚洲成人午夜在线| 3p在线观看| 国产精品乱码人人做人人爱| 天天人人精品| h网站视频在线观看| 国产精品入口麻豆九色| 一本一生久久a久久精品综合蜜| 二区在线视频| 久久精品视频免费| 日韩欧美在线电影| 成a人v在线播放| 国产精品看片你懂得| 欧美下载看逼逼| 成人在线视频成人| 中文字幕国产精品一区二区| 亚洲免费视频一区| 老司机99精品99| 亚洲日本欧美天堂| 少妇一晚三次一区二区三区| 成人影音在线| 欧美日韩中国免费专区在线看| 能在线观看的av| 777午夜精品电影免费看| 欧美日韩精品欧美日韩精品一 | 日韩av网站在线播放| 久久资源中文字幕| 欧美精品在线免费观看| 精品视频久久久久| 免费在线亚洲欧美| 国产精品小说在线| 99久久精品国产色欲| 成人av片在线观看| 欧美性xxxx69| а√天堂8资源在线官网| 亚洲午夜电影网| 久久九九国产视频| 四虎成人精品一区二区免费网站| 69堂精品视频| 人体私拍套图hdxxxx| 精品成人影院| 欧美乱妇40p| 草久久免费视频| 久久精品国产99| 国产精品一区二区你懂得| 在线观看xxx| 国产精品福利在线播放| 国产成人在线小视频| 欧美成人ⅴideosxxxxx| 欧美一级免费观看| 插吧插吧综合网| 欧美在线三区| 国产成人在线播放| 精品人妻一区二区三区三区四区| 91美女片黄在线| 国产日韩第一页| 不卡av播放| 日韩欧美电影一区| 91精品国自产在线| 亚洲电影av| 91精品在线观看视频| 日本免费不卡| 亚洲精品国产精华液| wwwwxxxx日韩| 福利片一区二区| 久久网福利资源网站| 欧美一区二区三区网站| 丁香亚洲综合激情啪啪综合| 亚洲精品一区二区三区四区五区| 黄视频免费在线看| 日韩欧美中文一区| 欧美精品日韩在线| 久久五月激情| 国模精品一区二区三区| 91网在线看| 欧美日韩色综合| 三上悠亚影音先锋| 99精品国产福利在线观看免费| 成人淫片在线看| 婷婷五月在线视频| 欧洲一区二区av| 97超碰在线免费观看| 影音先锋国产精品| 3d动漫精品啪啪一区二区三区免费| 电影在线高清| 色婷婷综合中文久久一本| 日韩Av无码精品| 欧美色图首页| 99久久国产免费免费| 免费**毛片在线| 欧美男人的天堂一二区| 亚洲一区二区自偷自拍| 久久精品毛片| 日本不卡在线观看| 亚洲成人不卡| 在线观看日韩www视频免费| 国产精品男女视频| 久久综合精品国产一区二区三区| 欧美日韩二三区| 欧美三级自拍| 91超碰caoporn97人人| 污视频软件在线观看| 香蕉成人啪国产精品视频综合网 | 涩涩屋成人免费视频软件| 久久精品视频中文字幕| 国产精品人妻一区二区三区| 亚洲天堂久久久久久久| 小早川怜子一区二区三区| 久久精品影视| 91九色蝌蚪成人| 久久电影网站| 亚洲福利影片在线| 69视频免费在线观看| 国产亚洲综合在线| 超碰超碰在线观看| 7777久久香蕉成人影院| 91免费看网站| av免费在线视| 亚洲区在线播放| www.av88| 亚洲精品中文在线| 800av在线播放| 日韩福利电影在线观看| 尤物国产精品| 伊人精品久久| 日产日韩在线亚洲欧美| 成年人在线观看网站| 日韩视频一区二区三区在线播放| 国产l精品国产亚洲区久久| 神马午夜电影一区二区三区在线观看| 国产精品伦理一区二区| 三级黄色片免费看| 国产亚洲永久域名| 先锋影音一区二区三区| 欧美电影院免费观看| 高清欧美电影在线| 国产高清免费av在线| 制服.丝袜.亚洲.中文.综合| 国产精品suv一区二区69| 久久久国产午夜精品| 亚洲免费成人在线视频| 亚洲国产精品第一区二区| 日韩免费三级| 9l视频自拍九色9l视频成人| 国产成人在线精品| av网站在线看| 亚洲人成在线免费观看| 99精品久久久久久中文字幕| 第一福利永久视频精品| 日韩精品123区| 91亚洲国产成人精品一区二区三| 亚洲污视频在线观看| 亚洲激情在线| 中文字幕中文字幕一区三区| 天海翼亚洲一区二区三区| 成人精品久久av网站| 成人性生活av| 欧美激情在线视频二区| av在线首页| 日韩激情在线视频| va婷婷在线免费观看| 在线欧美日韩精品| 日韩人妻无码一区二区三区99| 国产精品乱码一区二三区小蝌蚪| 黄色网址在线视频| 国产成人日日夜夜| 九九九九九国产| 玖玖玖国产精品| 免费无码毛片一区二三区| 91精品秘密在线观看| 欧美日韩另类丝袜其他| 久久影院资源站| 亚洲最大福利视频| 欧美成人xxxx| 国产精品av免费在线观看| 91在线超碰| 欧美激情精品久久久久久大尺度| 黄网站在线播放| 伊人久久大香线蕉av一区二区| 天天干天天摸天天操| 日韩欧美一区二区视频| 97超碰国产在线| 精品污污网站免费看| 亚洲黄色小说图片| 婷婷久久综合九色综合绿巨人| 青娱乐国产在线视频| 亚洲女与黑人做爰| 三级黄色录像视频| 一色桃子久久精品亚洲| 福利视频第一页| 国产精品色呦呦| 美国黄色特级片| 国产欧美日韩视频一区二区| 亚洲天堂岛国片| 国产欧美精品一区二区色综合朱莉 | 日韩高清av| 精品日韩欧美一区| 日韩精品久久久| 第一sis亚洲原创| 日韩欧美99| av在线不卡免费观看| 日韩亚洲视频在线| 欧美丝袜一区| 一区二区三区在线观看www| 欧美精品一区二区三区精品| 亚洲国产婷婷香蕉久久久久久99| 日韩精品一区二区三区免费观影| 亚洲成人午夜在线| 四季av一区二区凹凸精品| 在线观看福利一区| 中文av一区| 日本熟妇人妻xxxx| 国产日韩综合| 激情内射人妻1区2区3区| 麻豆国产精品视频| 久久综合桃花网| 99久久综合色| 一级片手机在线观看| 国产精品久久久久婷婷| 日韩在线中文字幕视频| 一区二区三区**美女毛片| 日韩精品一区二区av| 欧美日韩亚洲一区二| 亚洲成人av网址| 337p亚洲精品色噜噜噜| 丰满熟女一区二区三区| 日韩av在线网页| 免费网站看v片在线a| 欧美激情在线狂野欧美精品| 中文字幕在线视频网站| 国产欧美一区二区三区久久人妖| 无码国模国产在线观看| 久久爱av电影| 99精品在线免费在线观看| 久久av高潮av| 日韩精品五月天| 国产一级二级av| 91麻豆国产福利在线观看| а天堂中文在线资源| 午夜电影网一区| 在线观看免费视频一区| 精品国产亚洲在线| 国产一级免费在线观看| 欧美大码xxxx| 高清不卡av| 成人18视频| 欧美三级美国一级| 免费人成自慰网站| 免费成人你懂的| 人妻无码中文久久久久专区| 1024成人网| 久久精品无码av| 精品裸体舞一区二区三区| 99视频在线观看地址| 韩国三级日本三级少妇99| 日韩色性视频| 欧美日韩亚洲一区二区三区在线观看 | 中文字幕超碰在线| 日韩视频在线永久播放| av在线中文| 全球成人中文在线| 第四色在线一区二区| 国产又黄又爽免费视频| 亚洲欧美日韩国产综合精品二区| 亚洲成人激情小说| 国产精品色噜噜| 影音先锋在线国产| 亚洲国产精品免费| 国产在线高清视频| 国产精品一区二区三区毛片淫片| 神马久久av| 大伊香蕉精品视频在线| 国产一区免费电影| 手机看片国产日韩| 在线欧美日韩国产| 日本大臀精品| 欧洲日韩成人av| 久久激情av| 欧美一级视频免费看| 国产精品一二三在| 顶臀精品视频www| 精品视频999| av中文天堂在线| 国产精品久久久久久一区二区| 中文精品一区二区| 欧美日韩在线中文| 99国产精品国产精品久久| 日本网站在线免费观看| 日韩美女一区二区三区四区| caopo在线| 亚洲va欧美va在线观看| 欧美丰满日韩| 91福利免费观看| 亚洲天堂2014| av免费观看网址| 欧美噜噜久久久xxx| 99精品国产高清一区二区麻豆| www.18av.com| 成人丝袜高跟foot| 亚洲欧美在线视频免费| 日韩精品免费在线视频观看| 英国三级经典在线观看| 欧洲精品久久| 日本免费新一区视频| 国产探花视频在线| 欧美日本在线观看| av网站大全在线| 国产精品日本一区二区| 一区二区亚洲| 中文字幕5566| 欧美少妇bbb| а天堂中文在线官网| 97中文在线| 国产日本精品| 日本黄色小视频在线观看| 欧美日韩一区高清| 岛国成人毛片| 精品999在线观看| 久久综合五月| 国产极品美女在线| 精品成人免费观看| free欧美| 黑人巨大国产9丨视频| 成人午夜精品一区二区三区| 午夜精品久久久久久久久久久久久蜜桃| 日韩精品欧美国产精品忘忧草 | 亚洲av毛片基地| 91精品国产色综合久久| 国产高清中文字幕在线| 手机在线观看国产精品| 国产麻豆视频一区| 青草视频在线观看免费| 日韩性xxxx爱| 美女一区2区| 高潮一区二区三区| 亚洲成人动漫在线观看| 国产一区精品| 官网99热精品| 毛片一区二区三区| 国产一级中文字幕| 中文字幕精品av| 国产精东传媒成人av电影| 成年人网站大全| 夜夜亚洲天天久久| av中文天堂在线| 九九九九精品| 国产中文一区二区三区| 国产成人无码精品亚洲| 日韩性xxxx爱| 国产精品入口久久| 黑森林av导航| 欧美精品99久久久**| 成人免费无遮挡| 日韩视频免费播放|