精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型邊推理邊糾錯,有可能做到嗎?這是ICML爆火的演講

人工智能 新聞
來自 Meta FAIR、CMU 和 MBZUAI 的葉添、徐子誠、李遠志、朱澤園團隊在最新的 arXiv 論文《語言模型物理學 Part 2.2:如何從錯誤中學習》中,通過可控實驗,探索了讓模型「邊推理邊糾錯」的可能性。

即便是最強大的語言模型(LLM),仍會偶爾出現推理錯誤。除了通過提示詞讓模型進行不太可靠的多輪自我糾錯外,有沒有更系統的方法解決這一問題呢?

來自 Meta FAIR、CMU 和 MBZUAI 的葉添、徐子誠、李遠志、朱澤園團隊在最新的 arXiv 論文《語言模型物理學 Part 2.2:如何從錯誤中學習》中,通過可控實驗,探索了讓模型「邊推理邊糾錯」的可能性。

他們在預訓練中加入大量「錯誤的推理」和「錯誤的糾正」,展示了這類數據可以提高語言模型的推理準確性(無需提示詞,無需多輪對話)。文章還深入探討了許多細節,例如(1)這種方法與 beam search 的區別,(2)如何準備此類數據,(3)是否需要對錯誤進行掩碼,(4)所需的錯誤數量,(5)此類數據是否可用于微調等。

圖片

圖 1

作者首先展示了一個 GPT-4o 通過提示詞和多輪對話進行糾錯的示例(圖 2),可以看到成功率不高,而且需要很長的對話才能完成糾錯。那么,如果模型最終能糾錯,為什么不在第一次犯錯時「立即收回并改正」呢?

圖片

圖 2:GPT-4o 通過提示詞和多輪對話進行糾錯的實例

為此,作者使用探針(probing)方法研究模型的內部工作機制。通過 Part 2.1 建立的 iGSM 數據集,作者發現當模型犯錯后,內部參數常常表現出「很后悔」的狀態,也就是說,模型可能已經知道自己犯了錯,但「覆水難收」。

那么,能否簡單地讓模型「后悔即重試(retry upon regret)」?即,通過額外訓練(如微調)得到一個檢測錯誤的模型,只要該模型判定當前步驟有錯,就立即退格回到上一步驟的末尾,再重新生成呢?

如圖 3 所示,作者進行了橫向對比。即便錯誤識別率超過 99%,這種重試方法在 iGSM 數據集上也只能將推理正確率提高 2%(雖然比 beam search 好)。作者總結了此方法的三個不足。

首先,對正確率提高有限,畢竟退格后,模型依然是隨機生成,并沒有用高級的方法改錯。其次,對錯誤識別率的要求很高(同等條件下,需要 100% 錯誤識別率才能將推理正確率提高 8%,但這太不現實)。最重要的是,這并不能降低模型生成文本的時間復雜度,因為依然需要一次次地重新生成。

圖片

圖 3

接下來,作者更換方法,在預訓練數據中加入大量的錯誤和糾正,例如「A=>B,哦我說錯了,應該是 A=>C」。那么,這能否提升模型的推理正確率呢?乍一看,這似乎不合理,因為增加錯誤的同時,模型豈不是被迫學習說錯誤的話(即 A=>B)?是否需要將錯誤部分(譬如「A=>B,哦我說錯了,應該是」這幾個字)通過掩碼(label masking)從訓練標簽中刪除?

答案是不需要。依然通過 iGSM 數據集,作者用控制變量法,橫向對比了諸多參數后得出若干結論(圖 4)。

例如,即便預訓練數據中的每道題目有 50% 的步驟包含錯誤,模型在測試階段并不會刻意犯錯(如使用 temp=0 生成時)。背后的原因與語言模型對語法的糾錯能力有關,具體可參見作者的另一篇 Part 1 論文,因此不需要對錯誤進行掩碼。更神奇的是,在合理范圍內,訓練集里的錯誤其實越多越好,例如包含 50% 錯誤的數據,比 10% 錯誤的數據在 iGSM 數據集上還能再提升推理正確率 4 個百分點。

圖 4

接下來,作者研究了包含「錯誤和糾正」的數據能否作為微調數據使用。這是個重要問題,因為現有的開源大模型可能并不具備很好的糾錯能力。如果我們制備了完美的錯誤糾正數據集,能否通過少量參數微調(如使用 LoRA 方法)讓現有模型學會糾錯?

答案是否定的。如圖 5 所示,作者嘗試了多種 LoRA 參數,發現最多只能將推理正確率從 78% 提高到 83%—— 甚至在大多數情況下,如 LoRA 的 rank 較小時,模型的正確率遠低于 78%。這說明「糾正錯誤」是一個高級能力,與模型的正常推理不同,需要大量參數變化才能實現。(這也合理,畢竟如果修改少量參數就能完成糾錯,那么讓模型「后悔即重試(圖 3)」恐怕早就能提高推理正確率了。)

相對而言,「錯誤識別」并不是高級能力,可以通過微量的 LoRA 微調學會。此外,通過 beam search 模型也能進行一定程度的重試,但對正確率的提升幾乎為零。綜合以上,作者認為,如果能制備優質的「錯誤和糾正」數據,應將此類數據放入預訓練數據集中,而不是等到微調時再使用。

圖 5

最后,作者研究了在實際生活中如何制備「錯誤和糾正」數據。目前為止,文章都在 iGSM 數據集上進行可控實驗,由于此數據集中的數學題滿足統一格式,可以隨意刪減拼接,制作無限量的錯誤和糾正數據。這太理想化了。現實生活中,有沒有辦法在不要求理解題目的基礎上生成一些「假錯誤」

作者對此做了一些初步嘗試。例如,通過將解題步驟中靠后的第 Y 步驟挪到前面作為第 X 步的假錯誤,然后用原本的第 X 步作為糾正。這一方法在 iGSM 數據集上也能顯著提升正確率(從 78% 到 91%),如圖 6 所示。

圖 6

據此,作者大膽預測,盡管未來的 LLM 可能不會直接在 iGSM 數據上進行訓練,但本文通過可控的對比試驗,研究了在通向 AGI 的道路上,我們需要對數據進行哪些修改和制備。

例如,利用像 Llama3-405B 這樣的模型來改寫數學題,在正確的解題步驟中插入許多錯誤 —— 甚至是簡單的假錯誤,也有望改變模型的答題方式。讓模型「邊推理邊糾錯」,而不是通過額外的提示詞被動糾錯,或許是一個新的思路。作者限于 GPU 限制,無法對如此方向做真實數據的大規模研究,但歡迎讀者沿著這一思路試試看。

最后,這篇 arXiv 論文是《語言模型物理學》系列作品中的 Part 2.2。此系列目前共 6 篇論文,在 ICML 2024 大會上做了 2 小時的演講,收獲諸多好評(圖 7)。有興趣了解整個系列作品的小伙伴,可以移步 https://www.bilibili.com/video/BV1Yw4m1k7nH

圖片

圖 7

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-05 10:20:00

LLM數據

2025-04-22 09:06:00

強化學習工具AI

2015-09-28 11:27:09

創業

2025-07-28 03:00:00

2025-06-05 03:00:00

AutoRefineRAGLLM

2023-04-21 10:33:42

2022-09-13 14:54:08

模型AI

2023-07-05 13:56:50

2023-06-28 09:41:07

機器狗

2024-08-19 09:42:00

模型MIT

2012-05-01 20:26:01

iPhone

2020-12-02 10:20:33

Docker命令Linux

2020-03-31 09:53:08

互聯網數據技術

2018-01-05 10:47:59

前端JavascriptWeb

2025-11-07 09:16:02

2025-03-11 08:50:00

2023-10-26 08:40:15

模型隱私推理

2025-05-16 08:44:01

2009-12-18 11:15:17

ADSL寬帶共享上網

2021-01-19 09:19:33

RPC調用過程框架
點贊
收藏

51CTO技術棧公眾號

国产日韩欧美视频在线观看| 人妻精品久久久久中文字幕| 91福利国产在线观看菠萝蜜| 成人妖精视频yjsp地址| 日本aⅴ大伊香蕉精品视频| xxxxx99| 亚洲综合色婷婷在线观看| 欧美日韩免费观看中文| 亚洲欧洲国产日韩精品| 好男人在线视频www| 青青草成人在线观看| 欧美高清视频一区二区| x88av在线| 成人高潮a毛片免费观看网站| 在线精品国精品国产尤物884a| 影音先锋男人的网站| 午夜福利一区二区三区| 紧缚捆绑精品一区二区| 奇米4444一区二区三区| 私库av在线播放| 精品久久一区| 日韩第一页在线| 毛毛毛毛毛毛毛片123| 三上悠亚亚洲一区| 午夜精品福利一区二区三区av | 亚洲av无码专区在线| 日韩精品亚洲专区| 国产91精品久久久久| 男女性高潮免费网站| 热久久天天拍国产| 亚洲欧美精品一区| 一起草在线视频| 69精品国产久热在线观看| 欧美区一区二区三区| 欧美xxxxx在线视频| 精品丝袜在线| 午夜精品久久久久久久| 欧美亚洲黄色片| 91网在线看| 亚洲色图清纯唯美| 懂色av一区二区三区四区五区| 国产爆初菊在线观看免费视频网站| 成a人片国产精品| 97超级碰碰| 国产suv一区二区| 国产一区二区伦理| 91色在线观看| 国产区精品在线| 国内精品久久久久影院薰衣草| 国产精品黄色影片导航在线观看| 4438国产精品一区二区| 久久久久久久高潮| 日韩免费在线看| 国产伦精品一区二区三区视频我 | 午夜免费精品视频| 99re66热这里只有精品4| 在线这里只有精品| 亚洲污视频在线观看| 精品国产美女a久久9999| 黑人巨大精品欧美一区免费视频| 一女被多男玩喷潮视频| 欲香欲色天天天综合和网| 欧美性猛交xxxxx免费看| 日本wwww视频| 日韩网站中文字幕| 欧美午夜电影在线播放| www.久久久久久久久久久| 高清一区二区三区av| 日韩一区二区免费高清| 波多野结衣三级视频| 国内精品麻豆美女在线播放视频 | 欧美 变态 另类 人妖| 欧美综合自拍| 一区二区三区日韩在线| 国产高潮流白浆| 亚洲第一毛片| 国产成人高清激情视频在线观看| 亚洲网站在线免费观看| 高清视频一区二区| 久久亚洲午夜电影| 日本在线观看免费| 亚洲在线成人精品| 国产熟人av一二三区| 一区二区三区无毛| 亚洲国产精品久久久久秋霞不卡| 国精产品一区一区三区免费视频 | 成人直播在线观看| 亚洲人av在线影院| 希岛爱理中文字幕| 国产精品视区| 成人网欧美在线视频| 欧美熟妇乱码在线一区| 国产色婷婷亚洲99精品小说| 色一情一乱一乱一区91| 亚洲天堂手机| 日韩一级视频免费观看在线| 魔女鞋交玉足榨精调教| 欧美啪啪一区| 国产日韩欧美综合| 五月婷婷伊人网| 亚洲美腿欧美偷拍| 国产自偷自偷免费一区| 电影一区二区在线观看| 日韩在线不卡视频| 国产视频91在线| 国产精品 日产精品 欧美精品| 欧美日韩精品久久久免费观看| 日本伦理一区二区| 欧美亚洲国产bt| 玖草视频在线观看| 欧美一区91| 国产精品欧美激情| 香蕉视频911| 夜色激情一区二区| 亚欧美在线观看| 私拍精品福利视频在线一区| 欧美成人三级视频网站| 中文字幕人妻一区二区三区视频 | а√在线中文在线新版| 这里只有精品电影| 日韩影视一区二区三区| 久久电影一区| 精品卡一卡二| av第一福利在线导航| 91精品国产aⅴ一区二区| 调教驯服丰满美艳麻麻在线视频| 亚洲综合精品四区| y111111国产精品久久婷婷| 韩国中文字幕在线| 欧美肥胖老妇做爰| 久久日免费视频| 日韩在线卡一卡二| 欧美日韩国产精品一卡| 亚洲一二三四| 亚洲裸体xxxx| 成人毛片18女人毛片| 99精品欧美一区二区三区小说 | 欧美成人bangbros| 九九视频免费看| 国产高清不卡一区| 少妇一晚三次一区二区三区| 欧美高清一级片| 欧美床上激情在线观看| 精品国产亚洲av麻豆| 亚洲另类色综合网站| 天堂av.com| 欧美黄色一区二区| 国产精品美女诱惑| 交100部在线观看| 亚洲精品国精品久久99热| www.毛片.com| 国产午夜精品美女毛片视频| 在线看的黄色网址| 久久久久午夜电影| 成人欧美一区二区三区黑人免费| 青草影视电视剧免费播放在线观看| 日韩欧美在线网站| 精品少妇一二三区| 26uuuu精品一区二区| 国产激情在线观看视频| 成人网18免费网站| 亚洲自拍偷拍色片视频| 另类视频在线| 亚洲欧美激情精品一区二区| 成人a v视频| 亚洲欧洲成人精品av97| 久久久无码人妻精品无码| 国产精品视区| 一区二区三区在线视频111| 成人久久精品| 国内精品视频久久| 久久精品国产亚洲a∨麻豆| 精品视频123区在线观看| 动漫性做爰视频| 99精品欧美一区二区三区小说 | 久久好看免费视频| 亚洲第一成人av| 日本福利一区二区| 天天天天天天天天操| 91一区二区在线| 粉色视频免费看| 日韩视频二区| 亚洲成人蜜桃| 久久精品亚洲成在人线av网址| 国产成人av网址| 午夜羞羞小视频在线观看| 日韩禁在线播放| 国产精品一品二区三区的使用体验| 亚洲一区二区综合| 中文字幕免费在线看线人动作大片 | 欧美黑人一区二区三区| 激情在线视频| 精品少妇一区二区三区在线视频| 黄色av网站免费| 一区二区三区蜜桃网| 成人国产精品久久久网站| 国产精品亚洲专一区二区三区 | 国产一区二区三区高清播放| 日韩a在线播放| 欧美日本一区二区视频在线观看| 欧美一区二区三区四区夜夜大片 | 91视频免费网址| 亚洲精品国产一区二区精华液 | 极品中文字幕一区| 一本一本a久久| 日韩高清成人在线| 91传媒在线免费观看| 日本综合视频| 欧美在线视频a| 欧美黑人猛交| 久久精品亚洲国产| 95在线视频| 亚洲欧美日本另类| 性感美女一级片| 欧美tk—视频vk| 国产v在线观看| 91精品午夜视频| 中文字幕免费观看视频| 色94色欧美sute亚洲13| 国产又黄又爽又色| 亚洲午夜一区二区三区| 青青草原免费观看| 亚洲精品综合在线| 性色国产成人久久久精品| 久久久久高清精品| 美女久久久久久久久久| av亚洲精华国产精华精华| 欧美一级大片免费看| 精品一区在线看| 福利片一区二区三区| 久久精品国产**网站演员| 99热这里只有精品在线播放| 老牛影视一区二区三区| 999香蕉视频| 男人天堂欧美日韩| 人妻熟女一二三区夜夜爱| 亚洲一区一卡| 成人在线免费观看av| 亚洲深夜福利| 乱子伦视频在线看| 丝袜亚洲精品中文字幕一区| 又色又爽又高潮免费视频国产| 丝袜美腿高跟呻吟高潮一区| 久久久国产欧美| 日韩av一级电影| 国产乱女淫av麻豆国产| 精品在线一区二区| 91视频免费入口| 成人免费看视频| 中文字幕日韩三级片| 2019国产精品| 日韩中文字幕有码| 国产精品美女久久久久高潮 | 性久久久久久久| 六月丁香激情综合| 欧美综合一区二区| 一级黄色片在线| 欧美成人bangbros| 性感美女一级片| 国产亚洲精品久久久久久777| 777电影在线观看| 欧美成人精品一区二区| 丁香花电影在线观看完整版| 97色伦亚洲国产| 澳门av一区二区三区| 国产日产欧美精品| 一级毛片精品毛片| 欧美aaaaa喷水| 日韩激情免费| 欧美极品少妇无套实战| 亚洲欧美久久| 中文字幕中文在线| 成人性色生活片免费看爆迷你毛片| 国产一级二级在线观看| 亚洲国产高清不卡| 国产一级片免费看| 色www精品视频在线观看| 99精品视频在线播放免费| 亚洲精品第一页| 欧美一区二区三区| 久久欧美在线电影| 国产精品天堂蜜av在线播放 | 美女亚洲一区| 欧美精品久久96人妻无码| 99成人精品| 亚洲一区二区三区观看| 91亚洲精品久久久蜜桃网站| 91社区视频在线观看| 五月天婷婷综合| 一区二区三区午夜| 日韩精品免费视频| 男人的天堂在线视频免费观看 | 最近2019中文字幕在线高清| 久久免费电影| 成人av番号网| 亚洲丝袜啪啪| 成人在线国产视频| 狠狠狠色丁香婷婷综合激情| 天堂久久久久久| 亚洲精品国产一区二区精华液 | 欧美黄色一级网站| 欧美在线不卡一区| 少妇激情av一区二区| 久久99久久久久久久噜噜| 99re66热这里只有精品4| 激情小说综合区| 欧美国产专区| 交换做爰国语对白| 国产偷国产偷亚洲高清人白洁| 久久久久国产精品夜夜夜夜夜| 欧美日韩一区二区三区视频 | 久久亚洲精品小早川怜子66| 成人黄色免费短视频| 国语精品中文字幕| 国产精品国码视频| 国产精品久久久久久9999| 国产色91在线| 欧美h在线观看| 日韩电影免费观看中文字幕 | 久久久精品久久久久久96| 色七七在线观看| 久久网站热最新地址| 999这里只有精品| 亚洲国产欧美一区| 另类视频在线| 国产精品美女xx| 亚洲小说欧美另类社区| 秋霞午夜鲁丝一区二区| 亚洲嫩草精品久久| 国产乱色精品成人免费视频| 色妞一区二区三区| 国产精品久久久久77777丨| 色之综合天天综合色天天棕色| 久久xxxx| 久久久久久亚洲中文字幕无码| 欧美视频在线免费看| 水中色av综合| 奇米四色中文综合久久| 久操成人av| 欧美伦理片在线看| 国产亚洲成av人在线观看导航| 中文字幕免费观看| 一区二区三区视频免费| av亚洲一区二区三区| 亚洲国产一区在线| 久久99精品一区二区三区| fc2ppv在线播放| 日韩欧美成人激情| av2020不卡| 麻豆av一区二区三区| 久久精品日产第一区二区| 国产综合精品久久久久成人av| 欧美日韩久久不卡| 99热国产在线中文| 国产私拍一区| 久久狠狠婷婷| 91动漫免费网站| 日韩精品一区二区三区视频在线观看 | 中文字幕 人妻熟女| 久久激情视频久久| 99久久免费精品国产72精品九九 | 美女视频一区二区| 欧美做爰爽爽爽爽爽爽| 亚洲国模精品一区| 激情开心成人网| 麻豆视频传媒入口| av一区二区三区| 中文字幕欧美人妻精品| 久久91精品国产| 日本成人7777| 久久国产这里只有精品| 一个色妞综合视频在线观看| 亚洲欧美日韩成人在线| 国产精品精品视频| 午夜视频精品| 日本高清www| 欧美精品自拍偷拍| 精品众筹模特私拍视频| 日本一区网站| 国产精品亚洲专一区二区三区| 999视频在线| 欧美精品免费看| 色综合综合色| 国产a级片视频| 欧美在线三级电影| 国产第一页在线视频| 午夜老司机精品| 成人黄色小视频在线观看| 一级一级黄色片| 久久久欧美一区二区| 日韩中文首页| av网页在线观看| 91精品欧美久久久久久动漫| 黑森林国产精品av| 黄色高清视频网站| 久久久国产精品麻豆| 可以免费看毛片的网站| 国产美女精品视频免费观看| 国产精品毛片在线| 私库av在线播放|