精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

李飛飛DeepMind全新「代碼鏈」碾壓CoT!大模型用Python代碼推理,性能暴漲12%

人工智能 新聞
激發大模型解決復雜問題的重要技術之一CoT,如今要被顛覆了?谷歌DeepMind斯坦福UC伯克利共同提出了「代碼鏈」(CoC),讓LLM在代碼中學會了思考。

思維鏈(CoT),最具開拓性和影響力的提示工程技術之一,能增強LLM在推理決策中的表現。

那么,如果大模型可以在代碼中「思考」,會如何呢?

最近,谷歌DeepMind、斯坦福、UC伯克利團隊聯手提出了全新技術——「代碼鏈」(CoC)。

圖片

論文地址:https://arxiv.org/pdf/2312.04474.pdf

「代碼鏈」是一種將編碼邏輯與自然語言理解相結合,簡單卻非常有效的創新方法,能夠提升LLM基于代碼的推理能力,讓其更智能、更通用。

再通俗點講,CoC允許LLM生成「偽代碼」來分解難題,通過LMulator執行有效代碼,模擬無效代碼。

研究結果顯示,在BIG-Bench Hard基準上,CoC實現了84%的準確率,比CoT提高了12%。

另外,在BIG-Bench Hard的23項任務中,CoC在18項任務中超過了人類的平均表現。

圖片

看得出,「代碼鏈」將CoT向前推進了一步,并將生成用于邏輯推理的代碼與LLM的語義推理集成在一起。

研究人員稱CoC非常適合機器人技術,可以進行語義和算法推理,在現實世界中的表現讓人驚艷。

對垃圾和可回收物進行分類。

還可以準備出西紅柿炒蛋的配菜。

值得一提的是,李飛飛的學生也是這篇論文的核心作者之一。

圖片

「代碼鏈」讓大模型用代碼思考

除了CoT,先前的工作還有多種方法來提升大模型推理能力。

比如,Program of Thoughts(思維程序)提示編寫并執行代碼,還有ScratchPad提示通過跟蹤程序狀態的中間步驟來模擬運行已經寫入的代碼。

圖片

最新工作中,研究人員提出了「代碼鏈」(CoC),其中大模型不僅編寫一個程序,還可以改善大模型基于代碼的推理能力。

具體來說,大模型不僅編寫一個程序,而且還有選擇性地「模擬」解釋器,通過生成生成某些代碼行的預期輸出。

關鍵思路是,鼓勵大模型將程序中的語義子任務格式化為靈活的偽代碼,在運行時可以明確地捕捉到這些偽代碼,并將其交給LLM進行仿真。作者將其稱為LMulator。

舉個栗子,給定任務「在上面的段落中,數一數這個人諷刺了多少次」。

接下來,可以在在上下文中提示LM一個可以調用輔助函數的程序,例如is_sarcastic(sentence),LM對此進行語言預測,并將結果作為布爾(boolean)結果輸出返回,然后與程序的其余部分一起處理。

具體來說,研究人員將LM推理公式化為以下過程,如下圖所示:

LM編寫代碼,解釋器逐步執行每行代碼(紅色) 。或者如果失敗,則用LM (紫色)模擬結果,并更新程序狀態(綠色)。

CoC 繼承了(i)編寫可執行代碼(將精確的算法計算留給解釋器)和(ii)編寫語義問題的偽代碼,并生成其輸出(可視為簡單的格式更改,LM對其具有很強的適應性)的優點,使LM能夠「用代碼思考」。

圖片

研究人員還總結了「代碼鏈」的幾個特點:

- 將代碼的優勢與語言模型的強大語義和常識知識結合起來,使得代碼能夠在全新的體系中使用。

- 利用了語言模型的編碼能力,這是近期語言模型的一個特別優勢,因為可以獲得高質量的數據。

- 繼承了推理代碼的許多好處,包括代碼的形式化表達式結構(例如圖靈完備性)和可用于代碼的強大計算工具。

- 繼承了通過中間步驟進行推理的技術的許多優勢,比如CoT。這些技術使得語言模型在必要的時候可以使用更多的計算來解決問題,同時提供更多的可解釋性。

語言推理評估

CoC的整體性能如下表1所示。

可以看到,無論是在超過人類基線的任務數量上,還是在超過基線的總體數量上,CoC都優于其他方法。

事實上,CoC在84%任務上取得SoTA。甚至在幾項任務中,CoC的表現大大超過了人類基線和其他方法,幾乎達到了100%準確率。

一般來說,對于這些任務,結果在語言上很復雜,但在代碼上卻很簡單,比如,多步算術Q任務:((-3+5×8×-4)-(9-8×-7))=)。

研究人員還觀察到,CoT在許多任務上都優于人類基線,而直接答案則差強人意。

圖片

圖3按問題類型將結果分解,任務標簽如表a1所示。研究人員將主要是算法或主要是自然語言的問題分離出來。

實驗結果顯示,在算法任務上,CoC的表現尤為出色,而在自然語言任務上,CoC的表現與CoT相當。

這一結果尤其令人鼓舞,因為人們可能會認為這些面向語言的任務更不適合編碼。關鍵是CoC方法提供了靈活性,使用仿真器來模擬代碼執行的輸出,同時保留了LM對自然語言問題的語義推理能力。

圖片

消融研究

圖4和5,以及表2顯示了為激發「代碼鏈」提示的各個方面而執行的消融研究。

正如人們所預期的那樣,執行Python的方法在多項任務上都實現了100%的性能,如果代碼正確,那么模型每次輸出結果都會正確。

然而,僅依賴Python的方法(CoC (Python))在應用于非算法任務時表現不佳,幾乎全部失敗。

CoC(Python)的消融與最近的研究成果相似,這些研究成果表明,如果應用于數值問題,代碼推理的效果會很好。

圖片

圖片

圖片

擴展

圖6顯示了CoC在不同規模的模型中的表現。

研究人員觀察到,與「思維鏈」提示類似,CoC的改進也隨著模型的增加而增加。

事實上,在某些算法任務中,「代碼鏈」的表現甚至超過了最優秀的人類評測員。然而,CoT只為最大的模型(d-3)帶來性能優勢,而CoC在較小的模型(a-1、b-1、c-1)上也優于直接問題解答基線,這表明較小的模型更容易輸出結構化代碼作為中間步驟,而不是自然語言。

圖片

跨任務提示

對于跨任務提示,研究人員用一些來自不同問題的例子來提示語言模型。從上圖6和表2中看到了所有方法的性能下降。

盡管有這種下降,CoC在規模上優于CoT和直接提示,幾乎達到了人類的平均性能。

指令調優模型

為了與使用聊天界面的指令調優的模型進行比較,研究人員向模型發出指令,以引出所需的推理方法。

對于基線,作者要求模型「直接回答」(Direct)或 「逐步思考」(CoT)。

對于CoC變體,研究人員要求模型「編寫python代碼來幫助解決問題,如果有幫助的話」。

如果編寫了程序,可以使用Python解釋器運行代碼,然后將結果(或執行失敗時的錯誤信息)反饋給模型以確定最終答案(CoC (Python)),或者要求模型將代碼執行的輸出模擬為LMulator(CoC (LM))。

如下表顯示了每種方法的性能。使用gpt-3.5-turbo,CoT和CoC (Python)都顯示出比直接提示更好的性能,盡管它們都被CoC (Interweave) 大大超越。

圖片

機器人用上了

此外,研究人員還將CoC的方法用在了機械臂在真實環境中的探索中。

結果發現,「代碼鏈」非常適合解決機器人任務,因為這類任務需要語義和算法推理。

它們還通過代碼(控制或感知 API)與其他API交互,以及通過自然語言與用戶交互。

就比如開頭提到的垃圾分類任務,「代碼鏈」加持的機械臂的「思考過程」如下。

紅色突出顯示表示解釋器正在執行LM生成的代碼,紫色突出顯示表示LMulator正在模擬代碼。

西紅柿炒蛋的過程。


責任編輯:張燕妮 來源: 新智元
相關推薦

2024-03-04 13:23:34

數據模型

2024-12-23 12:37:34

2025-02-14 09:20:00

模型數據訓練

2024-09-23 08:30:00

AI模型

2025-10-17 09:17:09

2025-02-17 14:43:51

2025-02-08 09:30:00

2025-11-17 08:46:00

AI模型技術

2025-02-06 14:28:16

2024-12-19 09:48:07

2025-04-09 10:53:48

2024-11-12 13:40:00

2024-11-11 11:05:00

大語言模型系統

2024-07-05 15:06:00

2023-08-11 14:18:52

谷歌研究

2025-05-16 08:58:09

2023-12-11 15:40:32

PyTorch代碼大模型

2025-10-17 09:53:23

2024-12-18 14:53:28

2025-02-07 16:07:39

點贊
收藏

51CTO技術棧公眾號

久久国产香蕉视频| 无码人妻精品一区二区三应用大全| 懂色av中文在线| 美女视频黄频大全不卡视频在线播放| 久久精品视频va| av漫画在线观看| 91精品产国品一二三产区| 国产精品色眯眯| 国产不卡一区二区三区在线观看| 天天综合网久久综合网| 久久高清精品| 亚洲国内精品在线| 一区二区三区视频网| 四季久久免费一区二区三区四区| 97精品视频在线观看自产线路二| 国产欧美日韩免费| 国产一二三四在线| 成人激情开心网| 亚洲国产精品高清久久久| 日本久久久久久久久久久久| 波多野结衣乳巨码无在线观看| 日本一区二区免费在线观看视频| 91精品中国老女人| 国产免费一区二区三区四区五区| 欧美色123| 中文字幕日韩免费视频| av无码一区二区三区| av在线精品| 在线观看亚洲精品视频| 九九热只有这里有精品| 免费黄色在线看| 国产午夜亚洲精品不卡| 精品久久久久久一区二区里番| 国产精品九九九九| 日本美女视频一区二区| 4438全国亚洲精品在线观看视频| 色欲一区二区三区精品a片| 亚洲激情77| 亚洲国产福利在线| 亚洲午夜精品在线观看| 91精品亚洲一区在线观看| 色爱区综合激月婷婷| 日本欧美视频在线观看| 羞羞视频在线观看不卡| 国产精品久久精品日日| 日韩性感在线| 国产精品免费播放| 91在线视频网址| 国产精品乱码一区二区三区| 国产美女免费视频| 久久激五月天综合精品| 国产成人精品在线| 少妇太紧太爽又黄又硬又爽| 国产精品大片免费观看| 久久国产精品久久久久| 国产福利视频网站| 午夜精品久久久久久久四虎美女版| 亚洲区在线播放| 在线视频 日韩| 国产另类在线| 亚洲成人在线视频播放| 成熟妇人a片免费看网站| 成功精品影院| 337p日本欧洲亚洲大胆精品| 日本wwwwwww| 波多野结衣在线一区二区| 日韩精品一区二区三区蜜臀 | 午夜a成v人精品| 国产欧美123| 男人添女人下部高潮视频在线观看 | 久久午夜色播影院免费高清| 国内精品久久国产| 手机在线观看免费av| www.日韩精品| 久久综合一区二区三区| 精品成人一区二区三区免费视频| 久久久久久麻豆| 亚洲高清视频一区| 成人福利片网站| 亚洲一区二区三区免费视频| 国产欧美日韩网站| 日韩成人av电影| 欧美日韩免费视频| 免费欧美一级片| 国产精品视屏| 伊人男人综合视频网| 欧美人与禽zoz0善交| 中文精品久久| 亚洲3p在线观看| jizz国产在线| 国产伦精品一区二区三区视频青涩| 91在线播放视频| 涩涩视频免费看| 久久精品一区八戒影视| 久久av秘一区二区三区| 成入视频在线观看| 欧美日韩一区二区在线视频| 69久久精品无码一区二区| 国产区精品视频在线观看豆花| 亚洲女人被黑人巨大进入| jizz日本在线播放| 亚洲国产99| 国产精品久久网| a天堂在线观看视频| 91丨porny丨首页| 在线视频91| 女人让男人操自己视频在线观看 | 91蝌蚪国产九色| 免费观看黄色的网站| 欧美gv在线| 91精品国产综合久久精品| 网站免费在线观看| 欧美jjzz| 国产成人精彩在线视频九色| 国产夫妻自拍av| 久久免费国产精品| 国产亚洲精品久久久久久久| 欧美专区福利免费| 精品国产91亚洲一区二区三区婷婷| 人妻视频一区二区| 99国产精品久久久久久久成人热 | 日韩一级淫片| 中文日韩在线观看| 免费黄色网址在线| 丁香五精品蜜臀久久久久99网站 | 国产欧美精品一二三| 九九视频精品全部免费播放| 欧美激情一区二区久久久| 中文字幕欧美在线观看| 99re热这里只有精品视频| 精品嫩模一区二区三区| 欧美成人家庭影院| 亚洲深夜福利在线| 国产污污视频在线观看| 国产成人精品免费在线| 在线成人av电影| 91久久久久久白丝白浆欲热蜜臀| 国产视频久久久| 久久97人妻无码一区二区三区| 麻豆91小视频| 视频一区在线免费观看| 午夜激情成人网| 亚洲精品视频在线播放| 日韩 欧美 综合| 成人综合婷婷国产精品久久| 久久视频免费在线| av在线播放一区二区| 精品国产欧美一区二区三区成人| 日本精品入口免费视频| 国产午夜精品一区二区三区视频 | 91精品国产91久久久久久青草| 欧美亚洲尤物久久| 国产视频123区| 免费观看日韩电影| 一区二区三区欧美成人| 欧美视频在线视频精品| 日韩在线播放一区| 国产内射老熟女aaaa∵| |精品福利一区二区三区| 亚洲涩涩在线观看| 欧美久久影院| 国产精品视频在线免费观看| xxx.xxx欧美| 亚洲国产成人久久综合一区| 在线观看免费国产视频| 91麻豆免费在线观看| 免费在线观看日韩视频| 凹凸成人精品亚洲精品密奴| 国产精品一区二区3区| 香蕉视频网站在线观看| 欧美一级在线观看| 久久精品视频9| 91丝袜高跟美女视频| 五月婷婷狠狠操| 天堂网在线观看国产精品| 91在线视频精品| 国产极品人妖在线观看| 亚洲美女在线视频| 亚洲免费视频二区| 亚洲欧美日韩一区| 日韩精品视频一区二区| 日韩国产欧美一区二区三区| 一区二区三区在线观看www| 电影一区中文字幕| 久久久综合免费视频| 九色网友自拍视频手机在线| 欧美日本一区二区三区| 久久久久久福利| 久久久电影一区二区三区| 女同激情久久av久久| 欧美另类亚洲| 日韩av电影免费播放| av一级久久| 538国产精品视频一区二区| 国产三级视频在线看| 日韩一级片在线观看| 欧美一区二区激情视频| 国产精品麻豆久久久| 无码任你躁久久久久久老妇| 日韩成人精品在线| 国产精品国产对白熟妇| 日韩精品1区| 国产区一区二区| 国产69精品久久久久9999人| 欧美黑人一区二区三区| 97超碰人人在线| 亚洲精品二三区| 国产又粗又长视频| 欧美视频二区36p| 国产一二三区精品| 国产欧美视频在线观看| xfplay5566色资源网站| 久久精品国产久精国产爱| 成人一对一视频| 亚洲天天影视网| 色99中文字幕| 西野翔中文久久精品国产| 亚洲一区二区少妇| av高清一区| 91chinesevideo永久地址| 性欧美高清come| 日韩在线精品一区| 国产尤物视频在线| 亚洲国产精品女人久久久| 一级黄色免费片| 色婷婷激情一区二区三区| 久久精品国产亚洲av高清色欲| 国产精品无人区| 受虐m奴xxx在线观看| 成人av免费在线播放| 无码国产精品一区二区高潮| 青青草原综合久久大伊人精品优势 | 国产精品五月天| 黄色在线观看av| 播五月开心婷婷综合| 男人操女人下面视频| 免费不卡在线视频| 天堂在线资源视频| 日韩成人av影视| 又色又爽又高潮免费视频国产| 亚洲经典视频在线观看| 日韩免费在线观看av| 欧美激情1区2区| 一本二本三本亚洲码| 性xxxx欧美老肥妇牲乱| 中文字幕精品一区日韩| 欧美电影三区| 熟女熟妇伦久久影院毛片一区二区| 日韩电影在线视频| 亚洲日本无吗高清不卡| 日韩av免费大片| 亚洲精品无人区| 欧美偷拍自拍| 在线观看成人av| 五月天久久777| 国产高清精品软男同| 亚洲国产精品久久久久蝴蝶传媒| 樱空桃在线播放| 牛牛国产精品| 国产真人做爰毛片视频直播| 亚洲成人资源| 五十路熟女丰满大屁股| 宅男噜噜噜66国产日韩在线观看| 欧美激情视频免费看| 国产亚洲精品bv在线观看| 欧美性久久久久| 久久亚洲色图| 在线看的黄色网址| 韩国一区二区在线观看| 91香蕉视频免费看| 成人激情文学综合网| 免费看污黄网站在线观看| 久久精品欧美一区二区三区不卡 | 日韩精品一区二区三区免费视频| 99三级在线| 日韩a级大片| 日韩欧美精品在线不卡 | 奇米777四色影视在线看| 激情丁香综合| 苍井空浴缸大战猛男120分钟| 美女脱光内衣内裤视频久久网站| 99精品视频国产| 成人在线视频首页| 日韩女同一区二区三区| 日韩一区在线看| 日本少妇裸体做爰| 欧美亚洲国产bt| 国产成人av免费看| 精品亚洲va在线va天堂资源站| 超碰97在线免费观看| 欧美福利在线观看| 新片速递亚洲合集欧美合集| 91麻豆桃色免费看| 亚洲va久久久噜噜噜久久| 一区二区三区视频在线播放| 狠狠干综合网| 亚洲免费av一区二区三区| 国产精品综合av一区二区国产馆| 小毛片在线观看| 中文字幕av一区二区三区高| 国产一级二级三级视频| 色屁屁一区二区| www.午夜激情| 在线精品高清中文字幕| 国产盗摄——sm在线视频| 国产欧美一区二区三区视频| 国产欧美啪啪| 色乱码一区二区三区熟女| 亚洲免费婷婷| 一区二区在线免费观看视频| 久久精品一区二区三区不卡牛牛 | 国产精品激情自拍| 6080亚洲理论片在线观看| 亚洲成色www久久网站| 亚洲激情午夜| 亚欧精品在线视频| 国产精品天干天干在线综合| 国产成人无码一区二区三区在线| 欧美男生操女生| 久草视频视频在线播放| 久久人人爽人人爽人人片av高请 | 欧美日韩午夜剧场| 亚洲成人一级片| www.日韩不卡电影av| 韩国成人漫画| 精品久久久久久中文字幕动漫| 欧美1区2区3区| www.cao超碰| 国产欧美视频一区二区三区| 精品美女久久久久| 亚洲国产精品电影在线观看| 婷婷色在线资源| 亚洲aⅴ男人的天堂在线观看| 日韩在线中文| 一区二区xxx| 国产视频一区二区在线| 草久视频在线观看| 亚洲精品久久久久久久久久久久| 欧美videosex性极品hd| 不卡视频一区二区| 欧美一区二区三区久久精品茉莉花 | 欧美精品福利| 日韩av影视大全| 中文字幕一区二区三区蜜月| 中文字幕一区2区3区| 亚洲人成在线观看| 日韩毛片免费观看| 色女人综合av| 久久精品国产精品青草| 91精品国自产在线| 欧美日韩精品三区| 免费看a在线观看| 91久久久亚洲精品| 欧美在线看片| 日韩av加勒比| 一区二区三区丝袜| 免费观看黄色av| 91国语精品自产拍在线观看性色| 精品欧美午夜寂寞影院| 六月丁香婷婷激情| 国产亚洲欧美日韩日本| 中文在线免费观看| 久久精品国产亚洲7777| 日韩欧美高清一区二区三区| 97久久国产亚洲精品超碰热| 成人av网址在线| 黄色片视频免费| 中文字幕在线国产精品| 国产色99精品9i| 日韩激情视频一区二区| 91丨porny丨在线| 乱子伦一区二区三区| xvideos亚洲人网站| 99久久免费精品国产72精品九九| 日本福利视频在线| 国产三级一区二区三区| 一级片视频免费| 久久久久久久久电影| 欧美**字幕| 在线视频观看91| 午夜精品123| 国产在线一在线二| 91精品免费视频| 在线精品观看| 谁有免费的黄色网址| 欧美精品一级二级| 91福利在线尤物| 亚洲一区二区三区欧美| 国产**成人网毛片九色 | 一级欧洲+日本+国产| 成人性生活免费看| 欧美喷潮久久久xxxxx| 国产盗摄一区二区| 日韩欧美精品一区二区三区经典| 国产毛片一区二区| 波多野结衣家庭主妇| 欧美成人网在线| 九九久久精品| 熟妇高潮一区二区| 欧美日韩国产免费一区二区|