精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

僅用提示詞工程摘下IMO金牌!清華校友強強聯手新發現,學術界不靠砸錢也能比肩大廠

人工智能 新聞
好家伙,原來我們都被LLM騙了,基礎大模型早就彎道超車,具備超強的解決復雜數學推理問題的能力。

無需谷歌“鈔能力”,兩位清華校友強強聯合,直接讓基礎模型Gemini 2.5 Pro輕松達到IMO金牌水平。??

只需提示詞改動……

圖片

該發現來自兩位清華校友楊林黃溢辰,他們共同設計了一套自我迭代驗證流程和提示詞優化,就成功讓Gemini 2.5 Pro完成了今年IMO題目的解答。

他們還剛剛更新了代碼,直接利用通用提示詞就能實現模型推理增強。

圖片

好家伙,原來我們都被LLM騙了,基礎大模型早就彎道超車,具備超強的解決復雜數學推理問題的能力。

只不過,直接用效果并不好。

就像MathArena也用Gemini?2.5?Pro跑了本次IMO題目,結果只有13分,遠低于IMO銅牌門檻(19/42)。

圖片

但只要加一點點提示詞魔法和迭代驗證,就能實現1+1>2。

這一點也受到了陶哲軒的認可:

我認同嚴格驗證是在復雜數學任務中取得出色表現的關鍵。

具體是怎么做到的?我們接著往下看。

通用提示詞+迭代驗證

首先為什么最近AI模型都喜歡參加IMO測試呢?

其實是因為相較于面向中小學水平題目的傳統數學基準GSM8KMATH等,IMO可以更為充分地考驗模型的抽象思維和多步驟邏輯推理能力,堪稱檢驗LLM推理能力的“試金石”

不過前幾年模型結果都不盡如人意,要么是無法理解題目要求,要么是“偏科”某一類問題。

直到今年才首次有官方認可的金牌AI出現,谷歌OpenAI均完成了5道題,其中谷歌Gemini模型搭載了新的Deep Think模式,OpenAI的模型據悉也是在通用強化學習計算擴展方面實現了技術突破。

但現在,研究團隊只用提示詞設計,就達成了上述效果。

圖片

關鍵在于,他們設計了一套自我驗證流程,依次可分為六個步驟:

  1. 初始解決方案生成:模型首先根據提示詞生成初步解答,要求每一步邏輯推理清晰、解釋明確。
  2. 自我改進:模型對初始答案進行回顧和優化,彌補初始生成中因思維預算有限導致的不足。
  3. 驗證解決方案并生成錯誤報告:在驗證器中根據提示詞驗證解答,生成包含關鍵錯誤(如邏輯謬誤或事實錯誤)和不完整論證在內的問題報告。
  4. 審查錯誤報告(可選):對問題報告進行復核,刪除誤報的問題,提升報告可靠性。
  5. 基于錯誤報告糾正或改進解決方案:根據問題報告改進解答,修正后返回驗證步驟。
  6. 接受或拒絕解決方案:若解答連續5次都通過驗證,則接受該回答;若連續迭代10次,都存在重大問題,則拒絕此答案。

具體來說,整個過程是由Gemini 2.5 Pro構成的求解器(solver)和驗證器(verifier)執行,采用差異化提示詞以達到不同作用。

其中求解器主要負責生成和改進答案,在提示詞設計上將嚴謹性設為首要目標,確保結果可嚴格驗證。

但由于Gemini 2.5 Pro的最大思考tokens為32768,在初始生成答案時無法獨立完成負責的IMO問題,所以通過步驟2中的自我改進,額外注入32768 tokens,讓模型回顧并優化初始解答,提升整體質量。

然后使用驗證器模擬IMO評分專家,進行迭代改進,并決定是否接受改進后的解決方案。

驗證器會逐一檢查解答并找出存在的問題,將問題分為關鍵錯誤論證缺口兩類,其中關鍵錯誤是指明顯錯誤或存在清晰邏輯謬誤的內容,會嚴重破壞證明的邏輯鏈條,引向錯誤答案。

論證缺口包含主要缺口次要缺口,主要缺口可能會導致整個證明失敗,而次要缺口可能會產生正確結論,但論證仍然是不完整的。

當發現問題后,驗證器隨即會輸出一份錯誤報告,為模型改進解決方案提供有用信息,在步驟4中對驗證器的誤判進行改正,然后模型根據報告嘗試改進答案。

由于驗證器可能出錯,所以需要足夠次數的重復迭代,降低誤判影響,最終如果答案能通過驗證則接受,如果始終存在關鍵錯誤或主要論證缺口,則拒絕。

圖片

具體實驗過程中,研究團隊選擇剛剛發布的IMO 2025題目,因為發布時間較短,可以有效避免訓練數據污染,確保評估的真實性。

另外在參數設置上,選擇較低的溫度值0.1,因為較高的溫度可能會導致更多的隨機錯誤,并使用Gemini 2.5 Pro的推理token上限,同時排除其它模型、代碼干擾。

關鍵提示詞中,初始生成的提示詞要求有充分理由支撐答案,如果不能找到完整解決方案,不能進行編造,且所有數學內容用TeX格式呈現。

圖片

輸出格式需嚴格按照總結到詳細解決方案的順序,其中總結包括結論和方法概述,詳細解決方案中需要呈現完整、逐步的數學證明,在最終輸出前還要仔細檢查以符合所有指令。

驗證提示詞里,唯一任務就是找出并報告解決方案里的所有問題,并不嘗試糾正漏洞,需生成詳細驗證日志并將問題進行分類,輸出格式包括總結和詳細驗證日志,總結又包括最終判定和發現列表。

圖片

最終,模型實現為IMO的6道題目中的5道生成了完整且數學嚴謹的解決方案,其中前兩道題目各生成了有提示和無提示的兩種解決方案。

第一題提示使用數學歸納法,第二題提示使用解析幾何完成,通過對比可得,詳細的提示詞可以減少計算搜索空間、提高效率,但并不會額外賦予模型新的能力。

在未能解決的第六題上,研究人員發現模型是在其中一個有關證明時出現核心錯誤,從而導致后續證明無效。

實驗結果證明,結構化迭代流程將是LLM的潛在能力轉化為嚴謹數學證明的關鍵,可突破單次生成中例如有限推理預算和初始答案錯誤等局限性。

另外研究人員預計,如果混合使用多種模型,例如Grok 4OpenAI-o系列,以及類似Grok 4 heavy的多智能體系統,可能會產生更強的數學能力。

清華校友強強聯合

本次研究的兩位作者——黃溢辰楊林,他們是清華大學數學物理基礎科學實驗班的本科同學,畢業后又分別前往海外高校深造。

圖片

黃溢辰在加州大學伯克利分校取得物理學博士學位后,曾在微軟擔任AI研究員,后在加州理工學院擔任博士后,師從凝聚態物理領域大拿陳諧教授。

陳諧教授本科同樣畢業于清華大學,并在2012年獲得麻省理工學院理論物理博士,目前是加州理工學院的Eddleman理論物理學教授。

主要研究的是量子凝聚態系統中的新型相和相變,包括強關聯系統中的拓撲序、多體系統動力學、張量網絡表示以及量子信息應用等。

曾在2017年斬獲斯隆獎,后又因其對物質拓撲態及相互關系的卓越貢獻,榮獲2020年物理學新視野獎,該獎項隸屬于科學突破獎的子獎項,要知道科學突破獎也被譽為當代科學界的“奧斯卡獎”

后續黃溢辰又接著在麻省理工學院理論物理中心和哈佛大學物理系繼續從事博士后研究,主要研究方向是量子物理學,包括量子信息學、 凝聚態理論和機器學習。

圖片

另一位作者楊林,目前是加州大學洛杉磯分校的副教授,任職于電氣與計算機工程系以及計算機科學系。

圖片

此前,他曾獲得約翰霍普金斯大學的計算機科學和物理與天文學雙博士學位,又曾在普林斯頓大學從事博士后研究,師從王夢迪教授。

王夢迪14歲就考入清華,23歲就從麻省理工學院博士畢業,其導師還是美國國家工程院院士Dimitri P. Bertsekas,年僅29歲就成為普林斯頓大學終身教授。

研究領域主要涉及生成式人工智能、強化學習、大語言模型等,2024年還曾獲得控制領域最高獎項Donald P. Eckman獎(每年僅頒發給一位獲獎者)。

而楊林教授的研究重點則是強化學習理論與應用、機器學習和優化理論、大數據處理和算法設計等,他曾在ICMLNeurIPS等頂級機器學習會議上發表過多篇論文,還曾獲得亞馬遜教授獎、西蒙斯學者獎等。

有限的資源下,學術界也能比肩大廠

對于本次研究的相關細節,量子位也和楊林教授深入聊了聊。

首先是為什么會優先選擇Gemini 2.5 Pro作為研究對象,楊林教授表示:

實驗開始時Gemini相對比較方便,可調的參數較多。

而當談及Gemini 2.5 Pro在解決前5道問題所涉及的計算資源和耗時,楊林教授也是坦然回應道:

具體資源我們沒有仔細統計,但大致估算下,第一步大概需要60000token,之后的每次驗證,如果通過則15000token,如果需要修改則需要30000token。

每次由于隨機性都會有所差異,不同題目需要的tokens數在300k到5000k都是有可能的,比如運氣不好的時候,一道題目就做了8次獨立實驗。而計算時間則取決于谷歌服務器的空閑度,最快10分鐘左右就能解出一道題。

關于使用提示前后模型的差異,楊林教授也表示:

當使用提示后,模型基本一次獨立實驗(Agent輸出失敗或成功算一次獨立實驗)就能解決題目,但不使用模型的思維會發散,之前提及的8次獨立實驗就是在沒有使用提示的情況下出現的。

至于沒有成功解決的第六題,楊林教授認為主要問題還是出在驗證器上:

當求解器輸出假陽性答案時,驗證器沒能很好地區分一些細節。

目前團隊已經進行了手動驗證,自我檢查了證明的所有細節,但缺乏官方評分,楊林教授也希望如果組委會有興趣,他們很樂意參與IMO官方評分,進一步驗證解答。

未來他們也將會通過使用更多訓練數據進行預訓練和微調,以提升基礎模型的能力。

之后楊林教授也分享了一些本次研究中他所收獲的心得體會:

有時候基礎模型的能力需要用其它方法釋放,如果未來模型訓練達到瓶頸,那么Agent方法可能是破局的關鍵。而本次研究也讓我們看到,學術界利用有限的資源,也能做出與大廠同等重要的成果。

他也希望AI在未來能在數學研究中扮演更為重要的角色,尤其是在一些長期懸而未決的問題上

最后也幫讀者朋友們向教授詢問了一些與AI共存的建議,楊林教授相當謙虛地表示:

同學們比我年輕,對AI的使用可能比我更加自然,所以我提不出什么建議。但就我自身而言,我希望在使用AI的同時,也能提高自身的知識水平。

簡而言之就是,使用并向它學習。

論文鏈接:https://www.alphaxiv.org/abs/2507.15855v2

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-03-05 18:17:21

AI競賽學術界

2025-02-11 09:15:00

AI模型訓練

2015-04-16 16:04:32

云計算微軟云Azure

2022-04-01 10:38:32

開源

2025-07-22 11:53:05

2014-09-24 10:33:04

飛利浦仙視電子

2020-12-21 11:12:45

編程技能開發

2024-02-05 10:56:34

2016-10-09 13:19:43

2013-07-08 09:41:50

HadoopGPU性能優化

2015-03-13 13:05:43

APICloud

2009-02-28 16:13:49

NovellVMware虛擬化

2009-09-27 11:27:33

Hibernate3JBOSS 3.2

2011-09-02 15:03:36

VMworld思科虛擬

2011-09-19 09:32:21

微軟Windows SerAzure

2014-09-04 10:06:09

浪潮金蝶云計算

2014-10-15 16:31:48

IBMSAP企業云

2009-08-03 11:46:13

云計算BMC亞馬遜
點贊
收藏

51CTO技術棧公眾號

亚洲成人精品电影在线观看| 日本欧美一二三区| 男人添女人荫蒂国产| 麻豆视频在线看| 国产欧美综合在线| 成人三级在线| 中文字幕日韩三级| 在线日韩欧美| 日韩一区二区在线视频| 欧美大喷水吹潮合集在线观看| 成人看片在线观看| 亚洲成人免费视频| 一区二区三区四区免费视频| 免费观看成年人视频| 美腿丝袜在线亚洲一区| 久久久视频在线| fc2ppv在线播放| 一区二区三区日本久久久| 欧美一区永久视频免费观看| 日韩亚洲在线视频| sis001亚洲原创区| 综合欧美亚洲日本| 欧美一区二区三区四区在线观看地址| 99热这里只有精品66| 日韩精品成人一区二区三区| 久久男人的天堂| 老熟妇高潮一区二区三区| 米奇777超碰欧美日韩亚洲| 日韩情涩欧美日韩视频| 午夜精品中文字幕| 日本一区免费网站| 欧美日韩一区二区免费在线观看| 免费看日b视频| 色欧美激情视频在线| 国产午夜精品久久久久久久 | 中文字幕日韩第一页| 亚洲伦理精品| 欧美另类精品xxxx孕妇| 日韩欧美视频免费观看| 欧美日韩中字| 国产一区二区三区免费视频| 精品国产成人亚洲午夜福利| 亚洲精品**不卡在线播he| 亚洲大胆人体在线| 挪威xxxx性hd极品| 日本精品一区二区三区在线观看视频| 欧美日韩精品一区二区三区四区| 亚洲人成无码www久久久| 中老年在线免费视频| 亚洲成人av一区二区| 成人免费在线网| av在线播放资源| 亚洲狠狠爱一区二区三区| 国产女教师bbwbbwbbw| 在线观看男女av免费网址| 亚洲色图丝袜美腿| 91社在线播放| 亚洲欧美成人影院| 亚洲午夜在线视频| 777av视频| 美女av在线免费看| 色悠悠亚洲一区二区| 国产精品第12页| 少妇精品视频一区二区免费看| 欧美写真视频网站| 国产亚洲视频一区| 亚洲国产欧美国产第一区| 精品国精品国产| 日本xxxx裸体xxxx| 精品久久91| 色婷婷综合久久久久| 日本一级特级毛片视频| 国产精品大片| 51ⅴ精品国产91久久久久久| 丰满人妻老熟妇伦人精品| 日韩经典一区二区| 亚洲xxxx做受欧美| 亚洲日本香蕉视频| 国产女人18毛片水真多成人如厕| 一区二区三区四区免费视频| 香蕉久久aⅴ一区二区三区| 亚洲444eee在线观看| 国产综合免费视频| 久久av影院| 欧美成人女星排名| 波多野结衣a v在线| 91亚洲成人| 久久久久在线观看| 中文天堂在线播放| 国产成人精品影院| 久久久久久精| 99视频免费在线观看| 欧美日韩国产丝袜另类| 伊人影院综合在线| 第一区第二区在线| 最近2019中文字幕第三页视频| 精品爆乳一区二区三区无码av| 亚洲在线国产日韩欧美| 成人在线中文字幕| 五月天丁香视频| 国产精品福利av | 天堂成人国产精品一区| 91久久国产精品91久久性色| 五月婷婷开心中文字幕| 国产精品高潮呻吟久久| 99999精品视频| 另类视频一区二区三区| 亚洲小视频在线| 国产精品7777| 国产资源在线一区| 奇米视频888战线精品播放| av毛片在线免费| 欧美伊人精品成人久久综合97| 性xxxxxxxxx| 99精品综合| 国产高清在线不卡| 午夜福利理论片在线观看| 亚洲视频香蕉人妖| 在线免费av播放| 要久久爱电视剧全集完整观看| 欧美高清videos高潮hd| 亚洲一区二区激情| 久久久久久久av麻豆果冻| 久久久久久免费看| 亚洲精品影片| 欧美精品免费播放| 97超碰资源站| 中文字幕va一区二区三区| 激情网站五月天| 婷婷成人在线| 国内精品久久久久久| 国产黄色一级大片| 亚洲少妇30p| 国内自拍第二页| 色琪琪久久se色| 国产成人jvid在线播放| 欧美性孕妇孕交| 懂色av中文一区二区三区天美| 国产免费a级片| 中文字幕免费一区二区三区| 国产精品免费在线免费| 成人精品一区| 欧美亚洲综合另类| 亚洲精品视频网址| 麻豆成人在线观看| 亚洲精品一品区二品区三品区| 秋霞国产精品| 中文字幕欧美日韩| 国产又粗又猛又黄又爽无遮挡| 国产精品福利一区二区| 亚洲精品成人在线播放| 91精品电影| 亚洲一区二区三区视频播放| 成年视频在线观看| 日韩一本二本av| 国产精品成人久久| 99精品在线观看视频| 欧美性大战久久久久xxx| 免费视频亚洲| 国产精品一区二区三| 国产黄色小视频在线| 欧美一区二区三区思思人| 欧美三级在线免费观看| 成人免费视频播放| 97在线免费公开视频| 中文字幕精品影院| 成人黄色在线播放| 亚洲h片在线看| 日韩国产高清污视频在线观看| 一级成人黄色片| 国产精品久久久久aaaa樱花| 成年人看片网站| 亚洲精品三级| 亚洲v欧美v另类v综合v日韩v| 欧洲亚洲精品久久久久| 欧美激情xxxx性bbbb| 亚洲色偷精品一区二区三区| 在线观看三级视频欧美| av成人免费网站| av在线不卡网| 亚洲天堂网一区| 欧美成人日本| 欧美福利一区二区三区| 爱情电影网av一区二区| 欧美黄色性视频| 男女视频在线观看| 337p亚洲精品色噜噜噜| 日本少妇在线观看| 欧美国产国产综合| 亚洲欧洲国产视频| 日韩黄色一级片| 黄色影视在线观看| 亚洲电影男人天堂| 97人人澡人人爽| 亚洲黄色中文字幕| 美女视频久久黄| 国产日韩精品在线看| 欧美成人一级视频| 亚洲午夜无码久久久久| 亚洲电影在线免费观看| 成人午夜免费影院| caoporn国产一区二区| 国产色视频在线播放| 亚洲深夜影院| 国产911在线观看| 国产伦一区二区三区| 99se婷婷在线视频观看| 久久99国产精品二区高清软件| 97视频在线观看免费高清完整版在线观看 | 欧美色图一区二区| 国产日韩欧美不卡在线| 欧洲熟妇的性久久久久久| 另类成人小视频在线| heyzo国产| 极品裸体白嫩激情啪啪国产精品| 香蕉久久夜色| 日韩在线黄色| 国产精品夜夜夜一区二区三区尤| 永久免费观看精品视频| 日韩美女免费观看| 欧美久久天堂| 欧美高清视频在线| www.欧美日本韩国| 中文字幕日韩欧美| 亚洲三级黄色片| 亚洲第一男人av| 国产aⅴ爽av久久久久成人| 欧美日韩专区在线| 狠狠狠狠狠狠狠| 大桥未久av一区二区三区| 国产污视频在线观看| 亚洲精品视频自拍| 日韩欧美123区| 国产精品视频一二| 欧美波霸videosex极品| 26uuu国产日韩综合| 国产一级二级在线观看| 成人av电影在线网| 国产精品扒开腿做爽爽爽a片唱戏| 国产一区二区三区在线观看精品 | 成人亚洲视频| 国产精品成人一区二区| 日韩三区免费| 国产精品99导航| 亚洲一区二区三区四区| 日本人成精品视频在线| 国偷自产一区二区免费视频| 国产91ⅴ在线精品免费观看| 九色porny丨国产首页在线| 97香蕉超级碰碰久久免费软件| 17videosex性欧美| 91黄色8090| 涩涩视频在线| 国产成人免费91av在线| 3d性欧美动漫精品xxxx软件| 国产精品久久久av| 国产精品第一| 91视频九色网站| 精品久久亚洲| 国产精品久久久对白| 精品亚洲自拍| 免费国产在线精品一区二区三区| 免费视频亚洲| 亚洲国产精品日韩| 你懂的视频一区二区| 国产精品又粗又长| 免费看亚洲片| 国产三级日本三级在线播放| 久久99国产精品免费网站| 手机精品视频在线| av影院午夜一区| 国产精品无码一区二区三区| 国产精品美女视频| 久久久久亚洲av无码专区体验| 亚洲国产一二三| 五月天激情国产综合婷婷婷| 欧美日韩免费观看一区三区| www.污视频| 日韩精品在线视频| av在线二区| 欧美激情影音先锋| 欧美电影h版| 69堂成人精品视频免费| 青草久久视频| 免费久久久久久| 国产一区二区三区的电影 | 欧美韩国日本一区| 少妇久久久久久被弄高潮| 欧美视频一区二区三区…| 亚洲视频在线观看一区二区| 精品国产精品一区二区夜夜嗨| 国产精品麻豆一区二区三区| 欧美日本在线视频中文字字幕| 亚洲淫成人影院| 成人精品网站在线观看| 亚洲成aⅴ人片久久青草影院| 一本一生久久a久久精品综合蜜 | 亚洲三级在线观看视频| 97久久超碰精品国产| 国产一区二区三区网站| 日韩一级片免费| 久久亚洲一区二区三区四区五区高 | 波多野结衣黄色网址| 精品日韩99亚洲| 永久免费在线观看视频| 91精品91久久久久久| 久久久久久亚洲精品美女| 欧美自拍资源在线| 99国产精品99久久久久久粉嫩| 岛国毛片在线播放| 久久婷婷国产综合国色天香| 欧美国产精品一二三| 欧美日韩1234| 黄网站在线观看| 亚洲2020天天堂在线观看| 国产精品欧美一区二区三区不卡| 日韩欧美亚洲精品| 一本久久综合| 韩国三级在线看| 亚洲人成网站精品片在线观看| 一二三区免费视频| 亚洲国产精品视频在线观看| 黄av在线播放| 国产精品美女主播在线观看纯欲| 91成人噜噜噜在线播放| 在线码字幕一区| 波多野结衣视频免费观看| 欧美性色欧美a在线播放| 四虎影视在线播放| 久久理论片午夜琪琪电影网| 国产精品视频首页| 亚洲精品一卡二卡三卡四卡| 欧美bbbbb| 国产黄色网址在线观看| 精品久久久久久久久久久久久| 欧美 日韩 中文字幕| 欧美日韩成人在线观看| 国产精品一站二站| 日本丰满少妇黄大片在线观看| 久久国产麻豆精品| 国产视频三区四区| 欧洲一区二区av| h视频在线观看免费| 国产精品视频yy9099| 亚洲国产国产| 日本xxxxxxx免费视频| 日本一区二区三区久久久久久久久不| 天天操夜夜操视频| 亚洲欧洲在线播放| 第四色男人最爱上成人网| 亚洲国产综合自拍| 麻豆成人综合网| 久草综合在线视频| 日韩一区二区三区精品视频 | 国产精品情趣视频| 中文字字幕在线观看| 日韩有码视频在线| 精品国产亚洲一区二区三区| 法国空姐在线观看免费| 国产成人av网站| 永久免费看片在线播放| 日韩经典中文字幕在线观看| 日韩a**中文字幕| 一区二区三区欧美成人| 国产一区视频网站| 国产一级生活片| 亚洲性av网站| www.久久99| 欧美大黑帍在线播放| 99久久精品免费看国产免费软件| 国产三级av片| 中文字幕成人在线| 久久中文字幕一区二区| 日韩视频免费播放| 国产亚洲欧美在线| 国产视频www| 亚洲91av视频| 色777狠狠狠综合伊人| 无码av免费精品一区二区三区| 福利微拍一区二区| 欧洲日本在线| 国产精品亚洲一区| 美女视频一区二区| 国产一级免费av| 一区二区三欧美| 一区二区日韩| 成年人网站大全| 亚洲一区二区精品视频| 欧美婷婷久久五月精品三区| 成人黄色激情网| 亚洲一区二区毛片| 成人做爰视频网站| 日韩电影中文字幕一区| 国产95亚洲| 99久久久无码国产精品6| 亚洲欧洲精品一区二区精品久久久| 无码国产精品96久久久久| 国产专区欧美专区| 亚洲美女黄网| 麻豆天美蜜桃91|