精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI o1是真有實力!港大權威AB測試,國家隊奧數題照樣拿下

人工智能 新聞
OpenAI o1的數學推理能力是否真的那么強?近日,來自港大的研究人員對模型進行了嚴格的AB測試,在非公開的國家隊奧數題面前,o1證明了自己的實力。

國際奧數題手到擒來,OpenAI o1是靠死記硬背還是真的實力超群?

近日,來自港大的研究人員對o1進行了嚴格的AB測試:

圖片

論文地址:https://arxiv.org/pdf/2411.06198

如何判斷LLM是否真正具有強大的數學推理能力?

考兩張卷子:一張是有可能提前背題的,另一張是不太可能提前背題的,兩張卷子難度一致。

如果LLM兩次考試的分數差不多,就證明人家是真會;要是后者的成績明顯低于前者,那就有作弊嫌疑了。

本文中,OpenAI Orion-1模型面對的兩張試卷,分別取自國際數學奧林匹克(IMO)和中國國家隊訓練營(CNT)的試題。

IMO的題目很容易獲得,而CNT的題目則無法公開訪問,通過比較o1模型在兩個數據集之間的性能,作者得出結論:o1是真有實力!

論文細節

OpenAI o1的亮相直接掀起了推理模型的風潮。

o1采用強化學習來訓練token-wise獎勵模型,模擬了推理和反思過程,從而在token生成中培養了一種內在的思維鏈風格。

從本質上講,o1的推理是一個制定和執行計劃的過程。

OpenAI曾表示,o1-mini在美國高中AIME數學競賽中的分數可以排進全美前500,但也有一些評測表示o1的效果并不理想。

上奧數題

為了公平測試o1的數學推理能力,本文的研究者編譯了兩個數據集進行分析。

第一個數據集包含來自過去十年國際數學奧林匹克競賽(IMO)的60個問題;第二個數據集包含來自中國國家隊(CNT)訓練營的60個問題(非公開)。

注:CNT訓練營旨在為學生在中國的IMO比賽做好準備。中國國家隊的選拔過程涉及多次測試(通常為8-10次),每次持續4個半小時,與實際IMO比賽的形式相同。

針對測試事先作出假設:

原假設:o1-mini的問題解決能力是基于推理能力的;

備擇假設:o1-mini的性能可能來源于對問題和解決方案的記憶,或對預訓練模式的模仿。

對于原假設,可以預計模型在IMO和CNT數據集中表現出類似的性能水平。相反,在備擇假設下,o1在兩個數據集之間將存在顯著的性能差異(IMO數據集的得分更高)。

另外,原假設還表明o1-mini能夠將其推理技能推廣到不同的問題集中,而不管它們的來源或復雜性如何。

實驗測試

latex是編寫數學問題和編輯軟件的標準格式,這里將三個數據集從PDF轉換為latex文件,以便o1可以輕松讀取和處理。

o1不需要CoT這種額外的提示,實驗中直接將latex問題文件提供給 o1-mini模型。

評測采用IMO或CNT數學競賽中采用的標準評分方法:每道題最多7分;當問題需要數字答案時,提供正確的數字將獲得1分;如果解決問題的直觀方法是正確的,則獲得2分;其余4分保留用于展示細致準確的推理步驟。

在嚴格數學領域,推理的復雜性和邏輯步驟的精確性非常重要,而LLM所擅長的整體概念理解在評分過程中受到的重視相對較低。

對于以證明為導向的問題,評分系統將2分分配給基本正確的思維鏈(表明解決方案的邏輯路徑);其余5分取決于LLM能否給出詳細而嚴格的論點,強調數學證明中連貫推理的必要性。

修改標準

在評估o1-mini的響應時,作者觀察到模型難以始終如一地提供嚴格的證明步驟。

與正式證明相比,o1-mini通常表現出「試錯法」:進行了一系列嘗試,偶爾通過非正式推理和啟發式猜測得出正確答案,這種非正式的推理缺乏數學證明所期望的嚴謹性和正式性。

下圖展示了一個例子,o1-mini通過驗證一些只涉及小自然數的情況來「猜測」答案。

圖片

基于o1-mini的這種特性,下面就不再要求正式的證明,而側重于評估模型展示正確直覺并通過推理得出正確結果的能力。

新的評價標準根據性質將問題分為兩種不同的類型:

1. 搜索類型:這類問題需要找到特定類型的數字、整數或基于表達式的解決方案,比如下面這個例子:

圖片

2. 解決類型:這類問題涉及尋找方程或優化問題的解決方案。

評分過程由精通相關數學領域的人工評估員負責。所有問題集、等級和相應的標簽都可應要求進行審查,從而確保評估結果的透明度和可訪問性。

結果評估

下表展示了兩個數據集(IMO和CNT)上不同類型問題的分布情況。

圖片

實驗的關鍵評估指標是,檢查o1-mini能否在Search和Solve類型的問題中提供正確的答案,結果如表2中所示。

圖片

第一列展示了o1-mini在搜索類型問題上的實際準確率(包括23個IMO問題和27個CNT問題),最后一行統計量t的計算公式如下:

圖片

對于「Search」和「Solve」類型的問題,統計量t都非常接近0,這表明公共數據集(IMO)和私有數據集(CNT)之間,o1-mini模型的性能沒有統計學上的顯著差異。

也就是說,o1-mini的能力不是來自簡單地記住解決方案,而是源于其推理能力。

案例研究

o1通常以敘述風格編寫的思維過程和以數學嚴謹的語言編寫的最終解決方案。

在某些情況下,思考過程中提供的直覺可能是關鍵的一步。此外,在最終解決方案部分突出的邏輯錯誤也很普遍,例如在回答搜索類型的問題時未能論證其他解決方案不存在。

圖片

第一個例子題目如上圖所示,兩人輪流占位,對Amy的額外要求是兩點之間的距離不能等于√5,求Amy最多能占多少個位置。

首先,o1-mini分析了√5的限制(即兩點的坐標差為(1,2)或(2,1)),可以等效成下圖黑白點的站位,此時相同顏色的點距離都不會等于√5。

圖片

于是,O1-mini得出結論,Amy應該將她的石頭放在相同顏色的點上。

在這個例子中,o1-mini提供了有用的直覺,并給出了正確答案,但 模型也沒有解釋為什么Amy不能占更多的點。

圖片

對于上圖的問題,o1-mini測試了從1到18的整數,然后選擇了幾個較大的數字。通過分析滿足條件的數字,它發現了只有質數的冪才可行的模式。

然后,o1-mini正確地證明了為什么質數的冪通常是可行的。然而,對于其他合數,o1-mini只提供了一些例子來說明。

在這個問題中,o1-mini堅持測試小的、易于計算的案例,這種方法在大多數搜索類型的問題中很常用,而且一般能拿到大部分分數。

下一個問題,找出所有符合條件的實數:

圖片

對此,人類的推理過程一般首先考慮α是整數的情況,然后分別評估奇數和偶數兩個子情況,可以使用求和公式寫出結果并進行推斷。

實驗中,o1-mini以類似的方式開始,幾乎完美地復制人工解的步驟。對比細節可以發現模型的推理存在疏忽,比如沒有考慮整數分量的奇偶校驗(奇偶性不會影響實際答案)。

圖片

最后一個例子的推理稍微復雜一些,o1-mini終于做錯了。它這次選擇了暴力破解:遍歷每一列,直到找到怪物或到達最后一行。

雖然o1-mini正確識別出有一個安全的列,但它沒有認識到探索怪物下方以到達最后一行的重要性。

這表明o1-mini缺乏強大的空間推理能力(即使是在二維空間中),并且與人類相比缺乏解決問題的策略。它無法解決問題可能是由于缺乏公式化的分步方法,或是用來確定最有效算法的規則。

責任編輯:張燕妮 來源: 新智元
相關推薦

2018-04-04 11:04:53

云服務云計算操作系統

2024-07-31 15:44:06

2024-09-24 11:01:03

2022-02-07 08:50:00

AI奧數模型

2024-11-07 15:40:00

2025-11-10 08:51:00

LLMOpenAI模型

2024-11-04 09:00:00

2024-10-05 00:00:00

2024-09-19 18:03:31

2010-07-28 15:39:26

IPTV

2024-12-23 07:40:00

AI模型數學

2024-12-05 10:16:14

2024-09-13 14:01:12

2011-12-22 08:54:36

2024-09-23 16:00:00

AI模型測評

2025-02-03 14:17:27

2024-11-25 15:50:00

模型訓練

2024-09-25 09:30:16

2024-09-13 10:06:21

2024-12-09 11:06:31

點贊
收藏

51CTO技術棧公眾號

youjizz.com日本| 欧美精品99久久| 国产视频在线观看视频| 很黄很黄激情成人| 亚洲精品中文字幕有码专区| 日本中文字幕高清| 人人澡人人添人人爽一区二区| 成人听书哪个软件好| 日韩av成人在线观看| 五月天激情丁香| 希岛爱理av免费一区二区| 欧美日韩视频在线一区二区 | 成人黄色av| 欧美va日韩va| 五月天av在线播放| 嗯啊主人调教在线播放视频 | 亚洲国产精品久久久久久女王| jizz中国少妇| 日韩经典一区二区| 国内伊人久久久久久网站视频| 国产91在线播放九色| 人妖一区二区三区| 日韩一二三区不卡| 狠狠操狠狠干视频| 成人日韩精品| 狠狠干狠狠久久| 国产亚洲精品久久久久久久| 午夜精品一区| 国产三级精品三级在线专区| 国产精品一区二区三区在线观| 亚洲图片在线播放| 日韩av网站免费在线| 5252色成人免费视频| 久久午夜无码鲁丝片午夜精品| 欧美综合在线视频观看 | 国精产品一区一区三区免费视频 | 免费在线观看视频一区| 国产91ⅴ在线精品免费观看| 久久精品亚洲无码| 在线精品小视频| 日韩一区二区av| 欧美特级黄色录像| 一区二区美女| 日韩精品在线第一页| 国产chinesehd精品露脸| 日韩成人综合网| 欧美性欧美巨大黑白大战| 欧美成人一区二区在线观看| 操人在线观看| 婷婷综合另类小说色区| 人妻av无码专区| 久久99亚洲网美利坚合众国| 亚洲视频一区二区在线观看| 麻豆中文字幕在线观看| 国产福利视频在线观看| 亚洲日本丝袜连裤袜办公室| 夜夜爽www精品| 日本综合在线| 亚洲精品欧美专区| www.男人天堂网| www555久久| 激情久久av一区av二区av三区 | 欧美国产日韩在线观看成人| 911久久香蕉国产线看观看| 久久亚洲精品网站| 免费在线观看av网址| 狠狠色综合网| 欧美有码在线视频| 中文字幕av第一页| 精品一区二区三区影院在线午夜 | 日本免费不卡视频| 99re免费视频精品全部| 日本10禁啪啪无遮挡免费一区二区 | 亚洲国产婷婷香蕉久久久久久| 亚洲欧美日韩偷拍| 久久99视频| 日韩视频一区在线| 国产一级一片免费播放| 亚洲欧美日韩在线观看a三区| 国产不卡精品视男人的天堂| 在线黄色av网站| 国产精品一二三四区| 狠狠久久综合婷婷不卡| 国产精品久久久久久久龚玥菲 | 2019中文亚洲字幕| 亚洲丁香婷深爱综合| 久久精品无码一区| 欧美在线免费一级片| 97视频在线观看成人| 成人小视频在线播放| 国内精品第一页| 久久精品国产精品国产精品污 | 久久精品久久久| 午夜精品久久久久久久99黑人 | 国产乱人伦偷精品视频免下载| 91九色露脸| 国产一区电影| 亚洲一本大道在线| 看欧美ab黄色大片视频免费| 日本精品在线观看| 亚洲人成电影网站色www| 国产高潮国产高潮久久久91| 日韩黄色小视频| 国产aⅴ精品一区二区三区黄| 国外av在线| 亚洲一区二区三区中文字幕在线| 国产视频一区二区三区在线播放| 高清一区二区中文字幕| 亚洲色图美腿丝袜| 精品在线视频免费观看| 毛片不卡一区二区| 久久免费99精品久久久久久| 成人日韩欧美| 欧美性猛交xxxx乱大交退制版| 国产午夜在线一区二区三区| 我不卡伦不卡影院| 国产精品久久久久999| 亚洲国产www| 综合电影一区二区三区| 男人搞女人网站| 全国精品免费看| 久久久久久午夜| 国产三级漂亮女教师| 国产欧美一区二区精品性色| 欧美二区在线视频| 91欧美日韩在线| 久久影视电视剧免费网站清宫辞电视| 国语对白做受69按摩| 99国产精品视频免费观看| 欧美大片免费播放| 国产精区一区二区| 日韩综合视频在线观看| 国产精品成人久久久| 久久亚洲私人国产精品va媚药| 成人av在线不卡| 日韩影片在线观看| 色综合久久88色综合天天看泰| 国产精品久久久久久免费播放| 欧美激情一区在线观看| 午夜肉伦伦影院| 夜夜春成人影院| 奇米四色中文综合久久| 亚洲三区在线观看无套内射| 天天综合色天天综合色h| 怡红院一区二区| 日韩视频免费| 欧美午夜精品久久久久久蜜| 国产精品粉嫩| 国产一区二区三区免费视频| 国产在线观看第一页| 欧美激情一区二区| 亚洲a级黄色片| 亚洲国产不卡| αv一区二区三区| 888av在线视频| 精品视频在线导航| 色老头在线视频| 日本一区二区三区国色天香| 国产一级片自拍| 欧美精品国产一区| 国产精品一区二区a| 男人av在线播放| 在线激情影院一区| 国产精品无码天天爽视频| 亚洲综合无码一区二区| 97人妻精品一区二区三区免费| 国产精品视区| 先锋影音一区二区三区| 9999精品视频| 高清亚洲成在人网站天堂| 日本ー区在线视频| 欧美日本在线观看| 久久久久久久福利| wwwwww.欧美系列| 91高清国产视频| 亚洲视频碰碰| 欧美日韩精品免费在线观看视频| av在线一区不卡| 不卡av在线播放| 性xxxx视频播放免费| 在线看不卡av| 久久久国产精华液| 国产日韩一级二级三级| 亚洲三级在线视频| 久久高清国产| 4444在线观看| 怕怕欧美视频免费大全| 亚洲精品欧美日韩专区| 无遮挡爽大片在线观看视频| 色婷婷综合久久久久| 色欲av伊人久久大香线蕉影院| 91久久一区二区| 国产亚洲欧美精品久久久久久| 久久网这里都是精品| 亚洲黄色片免费看| 香蕉av777xxx色综合一区| 久久久久久久久网| 欧美亚洲激情| 国产视频一区二区不卡| 伊人久久大香线蕉综合影院首页| 国模吧一区二区三区| 自拍视频在线免费观看| 亚洲国产另类久久精品| 97视频免费在线| 色激情天天射综合网| 国产性生活网站| 国产精品第四页| 国产ts在线播放| www.爱久久.com| 美女被艹视频网站| 精品影视av免费| 自拍偷拍 国产| 一区二区毛片| 日韩精品一区二区在线视频| 欧美顶级大胆免费视频| 欧美精品与人动性物交免费看| 一区二区三区高清在线观看| 国产精品中文字幕在线| 澳门成人av网| 78色国产精品| free性护士videos欧美| 欧美另类暴力丝袜| 黄色的网站在线观看| 在线观看中文字幕亚洲| 日韩电影免费| 亚洲精品wwwww| 成人精品在线播放| 日韩精品一区二区三区视频播放| 一级全黄少妇性色生活片| 色婷婷狠狠综合| 在线免费黄色av| 欧美日韩性生活视频| 久久亚洲成人av| 亚洲精品成人在线| 全网免费在线播放视频入口| 亚洲欧美色一区| 美国黄色小视频| 一区二区三区不卡在线观看| 免费三级在线观看| 亚洲视频在线观看一区| 欧美三级黄色大片| 亚洲日本一区二区| 精国产品一区二区三区a片| 亚洲欧美色图小说| 欧美久久久久久久久久久久| 亚洲一区二区五区| 日韩成人免费在线视频| 午夜精品久久久久久久99水蜜桃| 国产精选第一页| 欧美视频一二三| 无码任你躁久久久久久久| 91久久精品午夜一区二区| 久久永久免费视频| 欧美视频精品在线| 99精品在线视频观看| 欧美一级高清大全免费观看| xxxx国产精品| 亚洲国产美女久久久久| 日韩欧美电影在线观看| 宅男66日本亚洲欧美视频| 日本在线免费中文字幕| 毛片精品免费在线观看| 波多野在线观看| 欧亚精品在线观看| 国产乱子精品一区二区在线观看| 国产日韩欧美电影在线观看| 亚洲精品观看| 久草一区二区| 成人在线免费视频观看| 中文字幕久久一区| 激情综合在线| www.色就是色| 丁香婷婷综合网| 色婷婷在线影院| 亚洲人成精品久久久久| 日韩精品无码一区二区| 在线视频你懂得一区二区三区| 97免费观看视频| 亚洲精品按摩视频| 日本中文字幕在线看| 久久久人成影片一区二区三区观看| 超碰一区二区| 亚洲永久在线观看| 九九热线有精品视频99| 黄色免费高清视频| 免费精品视频| 成人免费黄色av| 久久久99久久精品欧美| 日本精品在线免费观看| 欧美日韩中文字幕在线视频| 中日韩av在线| 精品国产成人在线影院 | 精品三级av在线导航| 五月天丁香综合久久国产| 欧美精品偷拍| 无码人妻精品一区二区三区66| 国产激情一区二区三区桃花岛亚洲| 亚洲 欧美 日韩在线| 国产精品卡一卡二卡三| 日本黄色片视频| 欧美精品日韩综合在线| 青青草娱乐在线| 九九热精品在线| 国产美女久久| 欧美第一黄网| 雨宫琴音一区二区在线| 日本免费色视频| 久久久99精品免费观看不卡| 国产真实乱人偷精品视频| 精品视频一区二区不卡| 色网站在线免费观看| 欧美肥老妇视频| 在线播放成人| 午夜精品一区二区在线观看的| 中文欧美日韩| 亚洲精品无码一区二区| 亚洲情趣在线观看| 波多野结衣av无码| 日韩精品视频在线| 丁香花在线高清完整版视频| 91亚洲精品视频| 久久精品高清| 婷婷六月天在线| 国产日产欧美一区二区视频| 91美女免费看| 精品亚洲国产成av人片传媒| 国产丝袜在线观看视频| 成人午夜电影免费在线观看| 亚洲成人三区| 1314成人网| 国产精品美女久久福利网站| 国产又粗又猛又黄视频| 亚洲欧美www| 在线中文字幕播放| 欧美亚洲国产免费| 香蕉久久夜色精品| 搡老熟女老女人一区二区| 亚洲妇女屁股眼交7| 日日躁夜夜躁白天躁晚上躁91| 色综合视频网站| 国产成人一二片| www.av毛片| 97se亚洲国产综合自在线观| 国产成人愉拍精品久久 | 国产经品一区二区| 精品999网站| 欧美熟妇精品一区二区蜜桃视频| 香蕉成人伊视频在线观看| 肥臀熟女一区二区三区| 欧美精品激情在线观看| 国偷自产av一区二区三区| 亚洲 欧美 日韩 国产综合 在线| 96av麻豆蜜桃一区二区| 黄色在线免费观看| 在线看片第一页欧美| 亚洲免费资源| 免费的一级黄色片| av电影在线观看一区| 欧美特级黄色片| 久久韩剧网电视剧| 91精品啪在线观看国产爱臀| 青娱乐自拍偷拍| 国产欧美一区二区三区在线老狼| 91久久久久国产一区二区| 久久人人爽亚洲精品天堂| 日韩一级淫片| 欧美韩国日本在线| 国产精品久久久久一区| 成 人 免费 黄 色| 91成人在线视频| 欧美精品一区二区三区中文字幕| 黄色一级片免费的| 亚洲第一福利视频在线| 你懂的在线网址| 91色琪琪电影亚洲精品久久| 影音先锋久久资源网| 中文字幕第24页| 日韩精品中文字幕在线一区| 超碰一区二区| 超碰10000| 久久精品夜夜夜夜久久| av在线资源观看| 欧美在线亚洲在线| 亚洲综合色网| 欧美色图亚洲激情| 日韩一区二区在线看片| 中文字幕21页在线看| 亚洲区成人777777精品| 91蝌蚪porny九色| 国产免费黄色网址| 日本成人免费在线| 欧美三级免费| 国产农村妇女精品一区| 亚洲成人教育av| 亚洲影视资源| 91淫黄看大片| 天天综合色天天| 性欧美猛交videos| 亚洲精品在线视频观看| 97国产一区二区|