精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

啊!DeepSeek-R1、o3-mini 能解奧數題卻算不了多位數乘法?

開發
我們都知道,普通大模型的數學能力并不好,甚至可能會搞不清楚 9.8 和 9.11 哪個大。但隨著 o1、o3 以及 DeepSeek-R1 等推理模型的到來,情況正在發生變化。

我們都知道,普通大模型的數學能力并不好,甚至可能會搞不清楚 9.8 和 9.11 哪個大。但隨著 o1、o3 以及 DeepSeek-R1 等推理模型的到來,情況正在發生變化。比如 DeepSeek-R1 在競賽數學基準 AIME 2024 上達到了 79.8% 的準確度,成就了自己頭號開源推理模型的地位。

而根據 OpenAI 發布的數據,o3-mini (high) 在 AIME 2024 上的準確度更是達到了 87.3%,預計 o3 滿血版的成績還會更好。

但即便如此,這些強大的推理模型卻依然常常在一類看起來相當簡單的數學問題上栽跟頭,那就是簡單的乘法算法,尤其是多位數乘法。

去年 9 月,滑鐵盧大學助理教授鄧云天(Yuntian Deng)在 ?? 上分享了自己的一個實驗結果:通過讓 o1 計算最多 20x20(20 位數乘 20 位數)的乘法,發現該模型到 9x9 乘法之后準確度就不好看了,而 GPT-4o 更是在 4x4 時就會難以為繼。

以下是詳細結果:

前兩天,鄧云天又分享了 o3-mini 的「多位數乘法考試」成績。結果嘛,確實相較于 o1 有進步,但當位數超過 13 位時,準確度表現依然會嚴重下滑。

以下是詳細結果:

看起來,至少在多位數乘法任務上,非智能的計算器比推理大模型更可靠。

看到這個消息后,機器之心也去試了試 DeepSeek-R1 能否計算多位數乘法。首先,我們嘗試了讓兩個隨機寫的 9 位數相乘:456347891 乘以 390869523 等于多少?令人驚訝的是,DeepSeek-R1 在思考了足足 240 秒之后成功給出了正確答案。

接下來我們又試了兩個 15 位數的相乘:569815324865789x698437369846583=? 

這一次 DeepSeek-R1 思考的時間卻更短,為 114 秒,但給出了一個很接近但依然錯誤的答案。

根據計算器的結果,正確答案應該是 397980316797537914439995248987。

可以看到由于「服務器繁忙」,我們在這里嘗試了 4 次才成功獲得響應;而在另一次使用更加穩定的火山方舟 API 版 DeepSeek-R1 的嘗試中,還得到了另一個不同的結果:397816402510166516760347336987。

所以,LLM 真沒有能力正確執行多位數乘法嗎?

并不一定,轉折馬上就來了。

就在上面那條推文之下,微軟研究院研究科學家、威斯康星大學麥迪遜分校副教授 Dimitris Papailiopoulos 表示這個問題已經解決了。

他領導的一個研究團隊發現,不管是乘法,還是加法、迷宮求解和從易到難的泛化,都可以基于標準的 Transformer 加以解決,方法就是使用「遞歸式自我提升」。

下面是一個小模型教自己加法時的準確度表現:

Transformer 果真是神一樣的發明:Attention Is All You Need!

下面我們就來看看 Papailiopoulos 團隊究竟得到了什么發現。

論文標題:Self-Improving Transformers Overcome Easy-to-Hard and Length Generalization Challenges

論文地址:https://arxiv.org/pdf/2502.01612

Transformer 的長度泛化問題

基于 Transformer 的語言模型取得成功已經無需多談,它們已經有能力解決大量不同類型的任務。但是,它們在長度泛化(length generalization)方面依然有著巨大的局限性。也就是說,模型很難將自己的能力外推到比訓練期間見過的序列更長的序列。

就比如簡單的算術任務,一般的使用自回歸目標訓練的標準 Transformer 使用的訓練數據通常位數不多,當出現高位數算術運算時,這些模型常常表現不佳。

之前也有不少研究者試圖解決這個問題,采用的方法包括改用位置嵌入、修改架構、修改數據格式等。

不過,這些方法雖然在受控的實驗環境中很有效,但卻與 LLM 實際的訓練方式不兼容。原因也很簡單,這些修改方式都是針對具體任務實現的,我們不清楚這些修改能在多大程度上或以什么方式遷移到通用設置。

解決方案:遞歸式自我提升

為此,Papailiopoulos 團隊研究了 Transformer 展現出的一個有趣現象:transcendence,也就是「超越性」。

簡單來說,超越性是指學生模型在訓練期間泛化超過教師模型提供的數據難度的能力。2024 年 OpenAI 與哈佛大學等機構的一篇論文《Transcendence: Generative Models Can Outperform The Experts That Train Them》最早描述了這一現象。

具體來說,在任務的簡單實例(例如 n 位算術運算)上訓練的模型有時可為稍微困難的實例(例如 n + 1 位算術運算)生成正確的輸出。

Papailiopoulos 團隊利用這一現象構建了一個自我提升框架,其中模型可以迭代地生成自己的訓練數據并遞進地學習更困難的示例樣本。下圖展示了該團隊的自我改進流程:

在 AI 領域,自我提升并不是一個新鮮詞匯。通常來說,為了保證數據質量,自我提升大都需要外部驗證器、弱監督或過濾機制。下面展示了實驗中采用的兩種數據過濾方法。

該團隊的研究表明:在這個框架下,極端的長度泛化確實是可能的,而無需對基礎 Transformer 架構進行任何修改。對于反向相加和字符串復制等任務,自我改進無需顯式的數據過濾即可成功。然而,對于乘法和尋找迷宮最短路徑等更難的問題,沒有數據過濾的自我改進會因錯誤累積而失敗。他們的研究表明,簡單的過濾技術(例如長度過濾和多數投票)足以保持數據質量,并可實現大幅超越其初始訓練分布的自我改進。

不僅如此,該團隊還發現,自我改進不僅限于長度泛化,還可以實現從易到難的泛化,即在簡單任務上訓練的模型無需額外監督即可成功學習更難的任務。值得注意的是,該方法并沒有引入新的自我改進框架,而是展示了其在各種算法任務中的有效性。

此外,他們還研究了自我改進的動態,并得到了以下發現:

首先,控制從弱到強的歷程非常重要,因為為了避免災難性失敗,模型需要結構化的難度調度計劃。

第二,自我改進會隨著時間的推移而加速,因為更困難的示例樣本會帶來越來越大的好處,在某些情況下會實現指數級的外推。

最后,如果從預訓練模型開始,可以顯著加快自我改進速度,從而比使用從頭開始訓練的模型更快地實現泛化。

該團隊總結說:「我們的研究結果提供了證據,表明對于長度泛化和從易到難泛化,學習自我改進是一種通用且可擴展的解決方案。」

那么,Transformer 大模型能做多位數乘法了嗎?

回到最開始的問題,如果使用自我改進,基于 Transformer 的大模型能就能做多位數乘法了嗎?

先來看看實驗結果,當組合使用多數投票與長度過濾時,31 輪提升后,實驗模型能在 9 位數以內的乘法上達到近乎完美的表現。

而如果使用該團隊精心設計的一種自我改進調度方案,提升速度還能大大提升:在 19 輪內就能在 10 位數以內的乘法上達到近乎完美。

不過,或許是實驗成本方面的考慮,該團隊并未實驗更多位數的乘法。但至少從趨勢上看,這種自我提升策略確實是可行的。

那么,問題來了:現在的大模型已經開始有能力使用工具了,對于這樣的算術運算,為什么不直接讓大模型調用一個計算器應用呢?

對此,Dimitris Papailiopoulos 給出的答復是可以研究 Transformer 可以如何學習算法以及如何讓 Transformer 在比其訓練數據更困難的數據上取得更好的表現。

參考鏈接:

  • https://x.com/yuntiandeng/status/1889704768135905332
  • https://x.com/DimitrisPapail/status/1889747709491351734
責任編輯:趙寧寧 來源: 機器之心
相關推薦

2025-02-18 09:00:00

2025-02-08 11:44:03

2025-03-03 07:30:00

谷歌模型AI

2025-02-03 14:06:32

2025-02-17 08:12:00

AI模型生成

2025-02-03 12:38:28

2025-02-19 08:00:00

2025-03-31 08:00:00

AI模型測評

2024-09-23 16:00:00

AI模型測評

2025-02-10 00:00:01

2025-08-18 17:16:45

AIChatGPT模型

2024-12-24 16:15:04

2025-03-13 06:34:49

2025-02-03 14:17:27

2025-02-24 14:05:00

LLM模型AI

2025-04-22 09:12:00

AI模型數據

2025-02-18 08:15:03

2025-02-08 17:00:11

點贊
收藏

51CTO技術棧公眾號

免费不卡av网站| 久中文字幕一区| 无码黑人精品一区二区| 日本韩国欧美| 国产精品沙发午睡系列990531| 国产精品视频永久免费播放| 永久av免费网站| 国产日韩在线观看视频| 亚洲欧洲性图库| 3d蒂法精品啪啪一区二区免费| 久久精品视频久久| 99久久香蕉| 福利视频导航一区| 奇米精品在线| 国产精品午夜福利| 亚洲经典在线看| 亚洲人在线视频| 在线看免费毛片| 老司机深夜福利在线观看| 国产日韩精品一区二区三区在线| 国产精品久久在线观看| 小早川怜子久久精品中文字幕| 久久久久毛片| 亚洲国产综合人成综合网站| 日韩av高清在线播放| 国产精品久久久久久免费播放| 国产中文一区| 日韩国产欧美区| 激情图片中文字幕| 精品极品在线| 亚洲欧洲成人精品av97| 精品国产乱码久久久久久丨区2区| 成年人视频免费| 亚洲精品tv久久久久久久久久| 欧美精品一区二区三区四区 | 手机免费观看av| 日韩视频一二区| 色综合一区二区| 黑人巨大国产9丨视频| 视频福利在线| 国产毛片精品视频| 国产精品黄色av| 91国产丝袜播放在线| 亚洲一区 二区 三区| 亚洲男女性事视频| 人妻换人妻a片爽麻豆| 韩日精品一区二区| 亚洲精品v日韩精品| 日韩精品久久久免费观看| 无码国产精品96久久久久| 国产伦精品一区二区三区免费| 国产成人一区二区三区小说| 国产亚洲精久久久久久无码77777| 91亚洲人成网污www| 亚洲精品自在久久| xxxwww国产| 国产一区二区三区| 欧美日韩在线直播| 欧美 国产 小说 另类| 999av小视频在线| 亚洲精品免费一二三区| 宅男在线精品国产免费观看| 免费黄色片在线观看| 91视视频在线观看入口直接观看www| 999视频在线免费观看| 国产精品特级毛片一区二区三区| 美女在线视频一区| 国产精品日韩欧美| 国产又大又黄又爽| 国产精品综合一区二区| 国产91色在线|亚洲| 免费观看国产精品| 久久综合九色综合97婷婷 | 国产av无码专区亚洲av| 国产麻豆精品theporn| 国产精品二区在线观看| 欧美一级做性受免费大片免费| 99精品桃花视频在线观看| 久久久久久久久四区三区| 欧美在线观看在线观看| 欧美激情一区二区三区四区 | av在线收看| 亚洲人成亚洲人成在线观看图片 | 欧美三区在线视频| 四虎成人在线播放| 欧美日韩破处| 中文欧美在线视频| 久久久久香蕉视频| 美女爽到呻吟久久久久| 国产免费一区二区三区在线观看 | 国产在线视频一区二区| 国产欧美日韩一区| 国产福利小视频在线观看| 有码一区二区三区| 国产精品宾馆在线精品酒店| 成人av集中营| 亚洲国产成人av在线| 亚洲最大成人网站| 亚洲精品二区三区| 欧美亚洲免费电影| av中文字幕免费| 久久久久久亚洲综合| 久久av秘一区二区三区| 欧产日产国产精品视频| 在线播放91灌醉迷j高跟美女| 在线观看成人动漫| 99久久99视频只有精品| 97在线视频免费播放| 最近中文字幕在线免费观看| 国产白丝精品91爽爽久久| 日本一区视频在线观看| 视频在线这里都是精品| 欧美性一二三区| 午夜剧场免费看| 99精品视频在线| 日本国产欧美一区二区三区| 成人av无码一区二区三区| 国产欧美一区二区精品婷婷| 少妇高潮毛片色欲ava片| 激情欧美一区二区三区黑长吊| 亚洲精品ady| 男女性高潮免费网站| 久久综合狠狠| 国产伦理久久久| 成人免费网站在线观看视频| 欧美亚洲综合另类| 免费毛片视频网站| 1024日韩| 国产精品久久久久久免费观看| 老司机午夜在线视频| 在线亚洲一区观看| 性色av蜜臀av色欲av| 国内精品久久久久久久影视蜜臀| 成人精品在线观看| 日本三级视频在线播放| 在线日韩一区二区| 99久久久久久久久久| 在线国产欧美| 懂色一区二区三区av片| 日韩激情美女| 欧美高清视频不卡网| 扒开jk护士狂揉免费| 在线视频精品| 精品视频一区二区| 韩日毛片在线观看| 亚洲国产成人久久综合一区| 久久久久久国产精品视频| 国产一区二区精品久久91| 潘金莲一级淫片aaaaa免费看| 日韩在线电影| 欧美插天视频在线播放| 国产丝袜在线视频| 一区二区三区美女| 性生活在线视频| 欧美成人中文| 国产嫩草一区二区三区在线观看| 啦啦啦中文在线观看日本| 欧美r级电影在线观看| 国产中文字字幕乱码无限| 国产91丝袜在线播放| 精品视频在线观看一区| 精品福利一区| 国产成人午夜视频网址| 成人亚洲综合天堂| 欧美精品电影在线播放| 欧美国产精品一二三| 丁香婷婷综合激情五月色| 精品无码国产一区二区三区av| 国偷自产视频一区二区久| 91av视频在线播放| 国产精品天堂| 欧美一级欧美一级在线播放| 久久精品这里只有精品| 成人免费va视频| 欧美三级午夜理伦三级| 欧美独立站高清久久| 99国产盗摄| 中文字幕人成乱码在线观看| 中文字幕av一区二区| 国产露脸国语对白在线| 亚洲一区影音先锋| 色欲av无码一区二区三区| 另类中文字幕网| 国产丝袜精品视频| 久一区二区三区| 99久久久国产精品| 国产a级片免费观看| 欧美高清在线| 成人在线视频电影| 裤袜国产欧美精品一区| 精品国内自产拍在线观看| 性一交一乱一透一a级| 欧美性生交xxxxxdddd| 99热6这里只有精品| 白白色 亚洲乱淫| 中文字幕欧美人妻精品一区| 综合天堂久久久久久久| 蜜桃传媒视频第一区入口在线看| 国产乱子精品一区二区在线观看| 久久艹在线视频| 亚洲aⅴ乱码精品成人区| 欧美日韩国产乱码电影| 久久综合色综合| 久久久91精品国产一区二区三区| 成人在线短视频| 每日更新成人在线视频| 91传媒免费视频| 国产影视一区| 国精产品99永久一区一区| 欧美黄色a视频| 2019中文字幕在线免费观看| 国产一二区在线| 亚洲人成五月天| 精品久久在线观看| 欧美三区在线观看| 无码人妻一区二区三区线| 夜夜精品视频一区二区| 黄色一级片一级片| 久久亚洲综合色一区二区三区 | 国产成人综合视频| 九九热免费精品视频| 精品成人在线| 成人在线免费观看网址| 日韩精品第一区| 欧美日韩精品免费在线观看视频| 538任你躁精品视频网免费| 国产精品一区二区三区久久久| 色资源二区在线视频| 精品中文字幕乱| 超碰在线网址| www.xxxx欧美| 欧美私人网站| 国产亚洲视频中文字幕视频| 天堂а在线中文在线无限看推荐| 日韩欧美中文字幕制服| 国产巨乳在线观看| 欧美人妇做爰xxxⅹ性高电影| 激情网站在线观看| 日韩欧美亚洲范冰冰与中字| 亚洲视频免费播放| 亚洲成a人片综合在线| 久久久精品一区二区涩爱| 一区二区三区在线播| 精品一区在线观看视频| 亚洲欧美日韩在线播放| 成人免费视频国产免费观看| 成人欧美一区二区三区白人| 污污视频网站在线免费观看| 国产精品国产精品国产专区不片| av在线免费播放网址| 中文字幕亚洲欧美在线不卡| 国产乱子轮xxx农村| 国产精品嫩草影院com| 国产在线免费av| 国产精品家庭影院| www.99re6| 亚洲女同女同女同女同女同69| 少妇被躁爽到高潮无码文| 亚洲免费在线视频一区 二区| 欧美黑人猛猛猛| 亚洲第一主播视频| 九九九在线观看| 欧美性感一区二区三区| 亚洲天堂久久久久| 91精品福利在线一区二区三区| va婷婷在线免费观看| 精品美女一区二区| 外国精品视频在线观看| 亚洲男人天堂久| 日本激情视频在线观看| 欧美精品免费在线| 性欧美18~19sex高清播放| 国产成人拍精品视频午夜网站| 欧美男女视频| 91久久偷偷做嫩草影院| 天天操综合520| 亚洲欧美成人一区| 欧美日本不卡高清| 欧美色图另类小说| 美国毛片一区二区三区| 三上悠亚 电影| 26uuu色噜噜精品一区二区| 手机看片日韩av| 一区二区三区四区乱视频| 国产成人无码精品亚洲| 欧美唯美清纯偷拍| 精品久久久无码中文字幕| 亚洲欧美三级在线| 成人短视频在线观看| 91精品国产91久久久久福利| 91精品店在线| 国产精品美女xx| 精品午夜久久| 日韩精品一区二区免费| 日韩综合在线视频| 欧美一级大片免费看| 久久久久久久久久看片| 免费日韩在线视频| 欧美综合视频在线观看| 亚洲精品97久久中文字幕| 国产一区二区黑人欧美xxxx| 白白色在线观看| 国产日韩视频在线观看| 欧美成人午夜77777| 最新av在线免费观看| 亚洲一区免费| 91福利视频免费观看| 久久婷婷国产综合精品青草| 欧美一区二区三区爽爽爽| 色综合久久久久| 亚洲精品久久久狠狠狠爱| www.亚洲人.com| 中文在线а√天堂| 国产精品二区三区四区| 亚洲一级毛片| 午夜剧场在线免费观看| 久久精品这里都是精品| 日本一本高清视频| 欧美一区国产二区| √天堂资源地址在线官网| 91精品国产高清久久久久久| 久久久久久久久成人| 欧美一区1区三区3区公司| 亚洲国产日韩在线| 国产999免费视频| 国产精品嫩草影院com| 中文字幕天堂在线| 亚洲欧美另类国产| 免费在线小视频| 好看的日韩精品| 国产精品v日韩精品v欧美精品网站| 国内国产精品天干天干| 欧美极品aⅴ影院| 中文字幕在线观看视频免费| 亚洲国产一区自拍| 国产第一页在线视频| 亚洲最大激情中文字幕| 亚洲精品二区三区| 北条麻妃亚洲一区| 成人免费在线视频| 一级做a爱片久久毛片| 亚洲网站在线观看| 我爱我色成人网| 农村寡妇一区二区三区| 国产亚洲精品bv在线观看| 成人性生活免费看| 精品高清美女精品国产区| 日本毛片在线观看| 66m—66摸成人免费视频| 卡通动漫国产精品| 看av免费毛片手机播放| 99国产精品99久久久久久| 日本在线观看中文字幕| 日韩精品视频在线免费观看| 黄在线观看免费网站ktv| 麻豆视频成人| 日韩电影在线观看电影| 91狠狠综合久久久久久| 欧美日韩1234| 日本www在线观看视频| 91香蕉亚洲精品| 欧美视频一区| 黑丝av在线播放| 日本高清免费不卡视频| 成年网站在线| 成人av电影天堂| 国产精品多人| 中国黄色a级片| 欧美性色欧美a在线播放| 欧美jizzhd69巨大| 不卡一区二区三区视频| 亚洲一区二区成人| 国产7777777| 精品久久一区二区三区| 麻豆免费在线| 亚洲激情图片| 国产91精品在线观看| 亚洲第一在线播放| www.国产一区| 噜噜噜狠狠夜夜躁精品仙踪林| 黄在线观看网站| 亚洲欧洲精品一区二区精品久久久| 亚洲高清精品视频| 日韩av色在线| 2023国产精品久久久精品双 | 91麻豆高清视频| 中文字幕人妻一区二区在线视频| 伦理中文字幕亚洲| 香蕉久久夜色精品国产使用方法 | 国产综合久久久久久久久久久久| 亚洲精品在线观看av| 国产亚洲aⅴaaaaaa毛片| 精品视频在线一区| 亚洲国产精品久久久久婷蜜芽| 国产精品国产三级国产aⅴ中文 | 国产成人久久精品77777最新版本| 中国一级免费毛片| 久久久精品999| 香蕉久久精品日日躁夜夜躁| 久久人人爽人人片|