精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法? 精華

發布于 2025-2-14 12:28
瀏覽
0收藏

我們都知道,普通大模型的數學能力并不好,甚至可能會搞不清楚 9.8 和 9.11 哪個大。但隨著 o1、o3 以及 DeepSeek-R1 等推理模型的到來,情況正在發生變化。比如 DeepSeek-R1 在競賽數學基準 AIME 2024 上達到了 79.8% 的準確度,成就了自己頭號開源推理模型的地位。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

而根據 OpenAI 發布的數據,o3-mini (high) 在 AIME 2024 上的準確度更是達到了 87.3%,預計 o3 滿血版的成績還會更好。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

但即便如此,這些強大的推理模型卻依然常常在一類看起來相當簡單的數學問題上栽跟頭,那就是簡單的乘法算法,尤其是多位數乘法。


去年 9 月,滑鐵盧大學助理教授鄧云天(Yuntian Deng)在 ?? 上分享了自己的一個實驗結果:通過讓 o1 計算最多 20x20(20 位數乘 20 位數)的乘法,發現該模型到 9x9 乘法之后準確度就不好看了,而 GPT-4o 更是在 4x4 時就會難以為繼。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

以下是詳細結果:

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

前兩天,鄧云天又分享了 o3-mini 的「多位數乘法考試」成績。結果嘛,確實相較于 o1 有進步,但當位數超過 13 位時,準確度表現依然會嚴重下滑。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

以下是詳細結果:

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

看起來,至少在多位數乘法任務上,非智能的計算器比推理大模型更可靠。


看到這個消息后,機器之心也去試了試 DeepSeek-R1 能否計算多位數乘法。首先,我們嘗試了讓兩個隨機寫的 9 位數相乘:456347891 乘以 390869523 等于多少?令人驚訝的是,DeepSeek-R1 在思考了足足 240 秒之后成功給出了正確答案。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

接下來我們又試了兩個 15 位數的相乘:569815324865789x698437369846583=? 

這一次 DeepSeek-R1 思考的時間卻更短,為 114 秒,但給出了一個很接近但依然錯誤的答案。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

根據計算器的結果,正確答案應該是 397980316797537914439995248987。


可以看到由于「服務器繁忙」,我們在這里嘗試了 4 次才成功獲得響應;而在另一次使用更加穩定的???火山方舟?? API 版 DeepSeek-R1 的嘗試中,還得到了另一個不同的結果:397816402510166516760347336987。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

所以,LLM 真沒有能力正確執行多位數乘法嗎?


并不一定,轉折馬上就來了。


就在上面那條推文之下,微軟研究院研究科學家、威斯康星大學麥迪遜分校副教授 Dimitris Papailiopoulos 表示這個問題已經解決了。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

他領導的一個研究團隊發現,不管是乘法,還是加法、迷宮求解和從易到難的泛化,都可以基于標準的 Transformer 加以解決,方法就是使用「遞歸式自我提升」。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

下面是一個小模型教自己加法時的準確度表現:

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

Transformer 果真是神一樣的發明:Attention Is All You Need

下面我們就來看看 Papailiopoulos 團隊究竟得到了什么發現。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

  • 論文標題:Self-Improving Transformers Overcome Easy-to-Hard and Length Generalization Challenges
  • 論文地址:https://arxiv.org/pdf/2502.01612

Transformer 的長度泛化問題

基于 Transformer 的語言模型取得成功已經無需多談,它們已經有能力解決大量不同類型的任務。但是,它們在長度泛化(length generalization)方面依然有著巨大的局限性。也就是說,模型很難將自己的能力外推到比訓練期間見過的序列更長的序列。


就比如簡單的算術任務,一般的使用自回歸目標訓練的標準 Transformer 使用的訓練數據通常位數不多,當出現高位數算術運算時,這些模型常常表現不佳。


之前也有不少研究者試圖解決這個問題,采用的方法包括改用位置嵌入、修改架構、修改數據格式等。


不過,這些方法雖然在受控的實驗環境中很有效,但卻與 LLM 實際的訓練方式不兼容。原因也很簡單,這些修改方式都是針對具體任務實現的,我們不清楚這些修改能在多大程度上或以什么方式遷移到通用設置。

解決方案:遞歸式自我提升

為此,Papailiopoulos 團隊研究了 Transformer 展現出的一個有趣現象:transcendence,也就是「超越性」。


簡單來說,超越性是指學生模型在訓練期間泛化超過教師模型提供的數據難度的能力。2024 年 OpenAI 與哈佛大學等機構的一篇論文《Transcendence: Generative Models Can Outperform The Experts That Train Them》最早描述了這一現象。


具體來說,在任務的簡單實例(例如 n 位算術運算)上訓練的模型有時可為稍微困難的實例(例如 n + 1 位算術運算)生成正確的輸出。


Papailiopoulos 團隊利用這一現象構建了一個自我提升框架,其中模型可以迭代地生成自己的訓練數據并遞進地學習更困難的示例樣本。下圖展示了該團隊的自我改進流程:

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

在 AI 領域,自我提升并不是一個新鮮詞匯。通常來說,為了保證數據質量,自我提升大都需要外部驗證器、弱監督或過濾機制。下面展示了實驗中采用的兩種數據過濾方法。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

該團隊的研究表明:在這個框架下,極端的長度泛化確實是可能的,而無需對基礎 Transformer 架構進行任何修改。對于反向相加和字符串復制等任務,自我改進無需顯式的數據過濾即可成功。然而,對于乘法和尋找迷宮最短路徑等更難的問題,沒有數據過濾的自我改進會因錯誤累積而失敗。他們的研究表明,簡單的過濾技術(例如長度過濾和多數投票)足以保持數據質量,并可實現大幅超越其初始訓練分布的自我改進。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

不僅如此,該團隊還發現,自我改進不僅限于長度泛化,還可以實現從易到難的泛化,即在簡單任務上訓練的模型無需額外監督即可成功學習更難的任務。值得注意的是,該方法并沒有引入新的自我改進框架,而是展示了其在各種算法任務中的有效性。


此外,他們還研究了自我改進的動態,并得到了以下發現:


首先,控制從弱到強的歷程非常重要,因為為了避免災難性失敗,模型需要結構化的難度調度計劃。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

第二,自我改進會隨著時間的推移而加速,因為更困難的示例樣本會帶來越來越大的好處,在某些情況下會實現指數級的外推。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

最后,如果從預訓練模型開始,可以顯著加快自我改進速度,從而比使用從頭開始訓練的模型更快地實現泛化

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

該團隊總結說:「我們的研究結果提供了證據,表明對于長度泛化和從易到難泛化,學習自我改進是一種通用且可擴展的解決方案。


那么,Transformer 大模型能做多位數乘法了嗎?


回到最開始的問題,如果使用自我改進,基于 Transformer 的大模型能就能做多位數乘法了嗎?


先來看看實驗結果,當組合使用多數投票與長度過濾時,31 輪提升后,實驗模型能在 9 位數以內的乘法上達到近乎完美的表現。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

而如果使用該團隊精心設計的一種自我改進調度方案,提升速度還能大大提升:在 19 輪內就能在 10 位數以內的乘法上達到近乎完美。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

不過,或許是實驗成本方面的考慮,該團隊并未實驗更多位數的乘法。但至少從趨勢上看,這種自我提升策略確實是可行的。


那么,問題來了:現在的大模型已經開始有能力使用工具了,對于這樣的算術運算,為什么不直接讓大模型調用一個計算器應用呢?


對此,Dimitris Papailiopoulos 給出的答復是可以研究 Transformer 可以如何學習算法以及如何讓 Transformer 在比其訓練數據更困難的數據上取得更好的表現。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

本文轉自機器之心  ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/nFltEWUts-8IM1z5GawlYw??

收藏
回復
舉報
回復
相關推薦
caoporen国产精品视频| 国产精品zjzjzj在线观看| 久久久精品综合| 国产精品免费久久久久久| 污污内射在线观看一区二区少妇| caoporn-草棚在线视频最| 青草av.久久免费一区| 欧美xxxx18国产| 中文字幕影片免费在线观看| 国产电影一区二区三区爱妃记| 亚洲欧美在线视频| 精品无人区一区二区三区| 中文字幕网址在线| 亚洲第一毛片| 在线观看91久久久久久| 久久人妻少妇嫩草av蜜桃| 蜜桃麻豆av在线| 亚洲欧美一区二区视频| 美女黄毛**国产精品啪啪| 国产精品久久久久久在线| 亚洲永久免费| 欧美成人精品一区| 超碰人人人人人人人| 久久porn| 成人黄色综合网站| 久久亚洲精品网站| 国产交换配乱淫视频免费| 国产精品视频一区视频二区| 色综合一个色综合| 国产真实老熟女无套内射| 第九色区av在线| 亚洲午夜精品一区 二区 三区| 亚洲女人天堂成人av在线| 三上悠亚 电影| 成人在线免费电影网站| 国产成人综合精品三级| 久久国产精品首页| 亚洲日本欧美在线| 国产九色porny| 第一页在线观看| 久久99热这里只有精品| 日韩免费黄色av| 欧美日韩免费做爰视频| 婷婷亚洲五月| 色综合伊人色综合网| 成人免费网站黄| 日本在线高清| 亚洲第一搞黄网站| 国产一二三四五| 国产91对白刺激露脸在线观看| 污视频在线免费观看| 国产精品免费大片| 欧美视频不卡中文| 免费无码不卡视频在线观看| a视频在线观看免费| 国产麻豆成人精品| 国产精品亚洲欧美导航| 亚洲成人第一网站| 激情五月综合网| 国产视频精品xxxx| 风间由美一二三区av片| 视频精品二区| 亚洲成人久久电影| 一区二区三区精品99久久| 日韩精品视频在线观看视频| 青春草视频在线| 中文字幕一区二区三区精华液| 日韩一区二区三区资源| 亚洲av毛片成人精品| 麻豆视频观看网址久久| 国产精品成人一区二区三区吃奶| 欧美黑人一级片| 日韩午夜电影网| 在线欧美一区二区| 91精品999| 中文字幕 在线观看| 在线观看日韩毛片| 欧美视频在线免费播放| 久久久123| 亚洲第一主播视频| 一本色道无码道dvd在线观看| 四虎在线视频| 国产精品久久久一区麻豆最新章节| 黄色一级片网址| 亚洲影院高清在线| 国产女人18毛片水真多| 粉嫩一区二区三区在线看 | 91制片在线观看| 亚洲国产精品嫩草影院| 国产精品乱码一区二区三区| 天天干天天插天天操| 国产精品99久久久| 国产66精品久久久久999小说| 无码国产精品96久久久久| 国产无人区一区二区三区| 一级黄色录像免费看| av成人 com a| 欧美乱熟臀69xxxxxx| 午夜免费一级片| 午夜视频一区二区在线观看| 日韩欧美你懂的| 69亚洲乱人伦| 草草视频在线一区二区| 永久免费精品影视网站| 黄色片网站免费| 伊人久久综合| 国产在线视频不卡| 免费毛片在线| 一区二区三区蜜桃| 一区二区xxx| 精品91久久久| 九色成人搞黄网站| 欧美成人福利视频| 大吊一区二区三区| 国产精品普通话对白| 91精品视频一区| 精品推荐蜜桃传媒| 五月激情综合网| 亚洲五月激情网| 成人动漫免费在线观看| 91地址最新发布| www.亚洲欧美| 1000精品久久久久久久久| 不卡影院一区二区| 岛国精品一区| 久久6精品影院| 91片黄在线观看喷潮| 久久理论电影网| 欧美深夜福利视频| 一区二区在线视频观看| 久久在线免费观看视频| 在线不卡免费视频| 国产欧美一区二区精品性| 99爱视频在线| 卡一精品卡二卡三网站乱码| 久久99国产综合精品女同| 夜夜躁狠狠躁日日躁av| 国产精品区一区二区三区 | 久久er精品视频| 日韩久久精品一区二区三区| 在线免费看h| 日韩精品免费看| 天天综合网入口| 99国产精品久久久久久久久久 | 亚洲羞羞网站| 日韩亚洲欧美在线| 精品欧美一区二区久久久久| 国产一区三区三区| avove在线观看| 日韩成人在线看| 欧美日韩国产999| 亚洲爱情岛论坛永久| 一区二区三区在线播放| 曰本三级日本三级日本三级| 欧美精品一级| 成人xxxxx色| 九色porny视频在线观看| 亚洲成人黄色网| 午夜影院在线看| 久久综合网色—综合色88| 成人羞羞国产免费网站| 成人激情诱惑| 91精品视频观看| 色呦呦在线资源| 亚洲爱爱爱爱爱| 制服.丝袜.亚洲.中文.综合懂色| 91视频免费播放| 熟女少妇精品一区二区| 色777狠狠狠综合伊人| 成人免费午夜电影| 日本理论片午伦夜理片在线观看| 亚洲成年人在线| 台湾佬中文在线| 国产精品国产三级国产专播品爱网 | 永久免费看mv网站入口| 国产一区二区按摩在线观看| 成人黄色大片网站| 久久91麻豆精品一区| 国产免费一区视频观看免费| 调教一区二区| 日韩高清av一区二区三区| 亚洲第一网站在线观看| 18成人在线视频| 色婷婷精品久久二区二区密| 久久久久国产精品午夜一区| 中文字幕一区二区三区四区五区 | 337人体粉嫩噜噜噜| 黄一区二区三区| 国产欧美日韩网站| 欧美日韩老妇| 成人av影视在线| 日本一区免费网站| 欧美大学生性色视频| 黄视频在线观看免费| 在线影院国内精品| 久久国产精品波多野结衣| 久久久久亚洲综合| 色婷婷成人在线| aa级大片欧美三级| 在线视频不卡一区二区| 天天躁日日躁狠狠躁欧美| 国产精品自拍网| 日韩伦理精品| 精品中文字幕在线| 伊人免费在线| 日韩久久精品电影| 精品国产亚洲一区二区麻豆| 在线免费一区三区| 亚洲黄色三级视频| 亚洲免费三区一区二区| 永久免费成人代码| 99久久婷婷国产| 永久看看免费大片| 美女视频一区二区| 日本在线视频www| 亚洲第一在线| 中文字幕乱码免费| 三区四区不卡| 婷婷五月色综合| 香蕉久久夜色精品国产使用方法| 91色视频在线导航| 国产国产一区| 国产成人在线亚洲欧美| 国产福利电影在线播放| 免费av一区二区| 老司机午夜在线视频| 国产午夜精品美女视频明星a级| 丁香六月天婷婷| 日韩限制级电影在线观看| 在线观看亚洲国产| 欧美性极品少妇| 波多野结衣人妻| 色综合久久88色综合天天6 | 欧美伊人精品成人久久综合97 | 精品乱色一区二区中文字幕| 亚洲午夜免费| 亚洲xxxxx性| 精品国产亚洲一区二区三区大结局| 国产精品网站入口| 日韩一区二区三区免费视频| 日产日韩在线亚洲欧美| 午夜影视一区二区三区| 91精品国产高清自在线| 成年人黄色大片在线| 午夜精品久久久久久久99热浪潮| 男女在线观看视频| 久久久久久久久久久亚洲| 欧美理论片在线播放| 色综合久久88| 美女精品导航| 97视频在线看| 欧美激情网站| 国产v综合ⅴ日韩v欧美大片| 电影天堂国产精品| 国产精品久久久久免费a∨| 素人一区二区三区| 成人av在线天堂| 国产成人免费av一区二区午夜 | 一级在线免费视频| 免费人成精品欧美精品| 欧美日韩中文不卡| 国产一区福利在线| 精产国品一区二区三区| 成人高清av在线| 国产福利短视频| 国产免费成人在线视频| 成熟人妻av无码专区| 国产精品午夜久久| 九九热最新地址| 亚洲国产欧美一区二区三区丁香婷| 亚洲精品国产精品乱码| 在线视频观看一区| 91国内精品久久久| 精品精品国产高清一毛片一天堂| 天堂在线观看视频| 亚洲人成在线一二| 免费黄色在线观看| 欧美激情2020午夜免费观看| 无码小电影在线观看网站免费| 国产成人精品电影久久久| 国产精品亚洲欧美日韩一区在线| 国产欧美日韩亚洲| 精品日韩免费| 9191国产视频| 久久午夜精品一区二区| 网站在线你懂的| 91亚洲男人天堂| 精品国产国产综合精品| 无码av中文一区二区三区桃花岛| 探花国产精品一区二区| 日韩一区二区在线观看视频播放| 香蕉视频成人在线| 在线精品91av| 91色在线看| 国产日韩中文在线| 婷婷激情久久| 精品嫩模一区二区三区| 久久久久久黄| 国产xxx在线观看| 国产精品少妇自拍| 日韩av女优在线观看| 欧美精品丝袜中出| 香蕉视频911| 欧美精品免费在线观看| 影音成人av| 久久人人九九| 亚洲色图二区| 国产小视频精品| 91免费精品国自产拍在线不卡| 午夜激情福利网| 在线观看视频一区二区| 天堂在线中文网| 欧美巨大黑人极品精男| 成人黄页网站视频| 欧美美乳视频网站在线观看| 国产专区一区| 精产国品一二三区| 亚洲国产经典视频| chinese国产精品| 亚洲激情电影中文字幕| 天堂va在线| 91精品久久久久久久久久久久久久 | 亚洲黄色在线看| 污视频免费在线观看| 国产欧美日韩精品在线观看| 自拍偷拍一区| 一区二区传媒有限公司| 国产精品99久| 青娱乐免费在线视频| 欧美午夜精品久久久久久孕妇| 日韩美女一级视频| 97超级碰碰人国产在线观看| jizz性欧美2| 国产成人亚洲综合无码| 日韩成人精品一区二区三区| 欧美一级日本a级v片| 黑丝美女一区二区| 欧美 日本 亚洲| av在线播放成人| 国产午夜久久久| 精品久久99ma| 岛国av在线播放| 国精产品一区二区| 亚洲综合专区| 美女被艹视频网站| 亚洲精品视频在线观看网站| 国产一区二区女内射| 精品国内产的精品视频在线观看| 亚洲二区av| 99久久久无码国产精品性色戒| 欧美在线免费看视频| 欧美日韩在线高清| 国产毛片一区| 91久久免费视频| 91久久奴性调教| 男人的天堂a在线| 97视频在线免费观看| 久久最新网址| www.激情小说.com| 亚洲欧洲日韩av| 亚洲国产精品久久久久久6q| 久久久久国产精品免费网站| 玖玖玖免费嫩草在线影院一区| 男人亚洲天堂网| 中文字幕精品一区二区精品绿巨人 | 成人av在线看| 黄大色黄女片18免费| 久久亚洲一级片| 黑人巨大精品一区二区在线| 精品国产精品网麻豆系列| 欧美xxxhd| 亚洲一区在线免费| 精品一区二区三区在线观看国产| 欧美卡一卡二卡三| 日韩av有码在线| 国产成人77亚洲精品www| 国产卡一卡二在线| 成人av免费观看| 成人a v视频| 欧美久久精品午夜青青大伊人| 粉嫩久久久久久久极品| 能看的毛片网站| 国产精品v日韩精品v欧美精品网站 | 欧美在线观看视频在线| 天堂中文а√在线| http;//www.99re视频| 欧美黄色一区二区| 国产手机在线观看| 欧美性生交大片免费| 成人综合影院| 热久久这里只有| 欧美激情视频一区二区三区免费| 免费的av网站| 5858s免费视频成人| 肉体视频在线| 午夜视频久久久| 99久免费精品视频在线观看| 中国女人真人一级毛片| 午夜精品一区二区三区在线视| 精品一区电影|