精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4 MATH準確率最高漲至84.3%!港中文、清華等七所頂尖高校提出全新CSV方法

人工智能 新聞
讓模型用代碼自我驗證解決方案,結合多數投票集成機制,推理準確率可以提升近30%!

雖然大型語言模型(LLMs)在常識理解、代碼生成等任務中都取得了非常大的進展,不過在數學推理任務上仍然存在很大改進空間,經常會生成無意義、不準確的內容,或是無法處理過于復雜的計算。

最近推出的一些語言模型,如GPT-4, PaLM-2都在數學推理上取得了重大進步,特別是OpenAI的最新版模型GPT-4 Code Interpreter,在較困難的數學推理數據集上也展現出了很高的性能。

為了探索「代碼生成任務」對「語言模型推理能力」的影響,來自香港中文大學、南京大學、中國科學技術大學、清華大學、香港城市大學、長沙理工大學和塔夫茨大學的研究人員聯合發布了一篇論文,通過在代碼使用頻率(Code Usage Frequency)上引入不同的約束限制進行實驗驗證。

論文鏈接:https://arxiv.org/abs/2308.07921

實驗結果顯示,GPT-4 Code Interpreter模型的成功在很大程度上要歸功于「在生成和執行代碼、評估代碼執行的輸出以及在收到不合理的輸出」時糾正其解決方案方面的強大能力。

基于上述結論,研究人員提出了一種新穎且高效的提示方法,顯式的基于代碼的自我驗證(CSV, code-based self-verification),以進一步提高GPT-4代碼解釋器的數學推理潛力。

該方法在GPT-4 Code Interpreter上采用zero-shot提示,以促使模型使用代碼來對答案進行自我驗證。

在驗證狀態為「假」的情況下,模型將自動修改其解決方案,類似于人類在數學考試中糾錯的過程。

此外,研究人員還發現驗證結果的狀態可以指示解決方案的置信度,并進一步提高多數表決的有效性。

通過結合GPT-4 Code Interpreter和CSV方法,在MATH數據集上的零樣本準確率實現了從54.9%到84.3%的巨大提升。

LLM的推理能力從何而來?

為了探索代碼的使用對GPT4-Code解決數學問題能力的影響,研究人員采用了一種很直接的方法,即通過精心設計的提示來限制GPT4-Code與代碼的交互。

具體包括兩種代碼限制提示以及一種基礎提示用來對比:

圖片

提示1:No code usage is allowed(不允許使用代碼)

GPT4-Code不允許在其解決方案中添加代碼,也就是說模型只能完全依賴自然語言(NL)推理鏈,類似于思維鏈(CoT)框架中的解決方案,由此產生的推理步驟序列叫做CNL,如上圖中(a)所示。

提示2:Code can be used only once(代碼只能使用一次)

GPT4-Code只能用單個代碼塊內的代碼來生成解決方案,類似于之前的PAL方法,論文中將此序列稱為CSL,即使用符號語言(SL),如Python進行推理,上圖中(b)為樣例。

基本提示:對代碼使用沒有任何限制。

推理序列可表示為圖片,其中每個步驟都由自然語言和 Python 代碼組成,示例如上圖中(c)所示。

除此之外,研究人員還引入了代碼使用頻率(Code Usage Frequency)來記錄不同提示下的代碼執行次數,結果表明,GPT4-Code的高性能與高代碼使用頻率之間存在正相關。

具體來說,提示2使用的代碼量比提示1多了一倍,并且提示2比提示1的準確率提高了 6.9%,表明Python代碼鏈CSL比自然語言鏈CNL更能提高計算能力,這一觀察結果與之前基于Python的提示方法結果一致。

不過只能使用一次代碼也存在缺陷,當代碼輸出引發錯誤或產生非預期的結果時,模型缺乏自我調試(self-debugging)的能力。

在對比提示2和基本提示時,可以發現,基本提示始終能生成包含多個代碼使用實例的解決方案,即代碼使用頻率更高,并且基本提示的準確性也明顯提高。

具體可以歸因于代碼的兩個優勢:

1. 生成一些簡短的代碼塊,可以分割自然語言推理步驟,從而帶來更高的準確率;

2. 模型有能力評估代碼執行結果,并在結果中發現錯誤或不合邏輯的解決步驟,并進行修正。

基于代碼的自驗證CSV

受代碼使用頻率分析觀察結果的啟發,研究人員決定利用GPT4-Code的代碼生成、代碼評估、代碼執行,以及自動調整解決方案等能力來增強方案驗證,以提高推理性能。

CSV的主要流程就是對GPT-Code輸入提示,來顯式地通過代碼生成來驗證答案正確性。

對解決方案C的驗證結果V可以分為「真」、「假」、「不確定」三類。

與CSV結合后,模型能夠使用代碼來驗證答案,然后在驗證結果為「錯誤」的情況下審查并調整得出解決方案的方式,從而獲得正確答案。

在完善和修正初始解決方案后,準確率可以得到顯著提高。

值得注意的是,驗證(verification)和修正(rectification)階段都是基于代碼的,所以必然會導致代碼使用頻率的增加。

在 GPT4-Code 出現之前,先前的框架大多依賴于外部LLM使用自然語言進行驗證和精心設計的少樣本提示。

相比之下,CSV方法僅依賴于GPT4-Code的直接提示,以零樣本的方式簡化了流程,利用其先進的代碼執行機制來自主驗證和獨立修正解決方案。

研究人員還將驗證階段集成到了加權多數表決(majority voting)中,為驗證過程的各個狀態分配了不同的權重。

為了防止答案被確認為「假」后不再進行其他驗證,研究人員將三種狀態分配了不同的權重:wT, wF和wU,可以增加系統的可靠性。

為了簡單起見,集成算法從k個解決方案中提取一對最終答案及其相應的驗證結果,表示為圖片其中v和a分別代表第i個最終答案和最終驗證結果。

因此,每個候選答案 a 的投票得分可以表示為:

最后從所有候選答案中選出得分最高的答案:

圖片

實驗結果

MATH數據集

GPT4-Code在MATH基準上的準確率達到了 69.69%,大大超過了之前的方法(53.90%),表明 GPT4-Code在解決數學問題方面表現出很強的能力。

在GPT4-Code的基礎上,文中提出的CSV方法進一步提高了準確性,將準確率提高到了73.54%;

在加入基于代碼的顯式自我驗證和驗證引導的加權多數投票(采樣路徑數為 16)后,結果進一步提高到了84.32%

需要注意的是,雖然增加基于代碼的自我驗證可以提高題目的成績,但具體程度因題目難度、形式而異。

其他數據集

研究人員還在其他推理數據集上應用了CSV方法,包括GSM8K、MMLU-Math 和 MMLU-STEM

從結果上來看,CSV+GPT4-Code在各個數據集上都取得了最優的結果。

與帶有模型選擇功能的GPT-4和 PHP相比,驗證引導的多數表決是減少采樣路徑數量的有效框架。

CSV方法與現有模型在MMLU-Math和MMLU-STEM數據集上的性能對比中,可以看到開源模型明顯優于閉源模型。

為了彌補這一差距,研究人員表示目前已經開始著手準備制作數據集,并將在不久的將來公開發布。

其他開源LLM模型,如LLaMA 2可以利用該數據集進行微調,并進一步提升數學推理能力。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-01-29 12:49:00

AI模型

2023-11-20 21:56:04

AI推理

2023-10-14 17:24:49

2023-10-14 13:09:53

谷歌模型

2021-10-11 17:27:50

框架計算機開發

2023-09-19 14:56:00

模型訓練

2025-05-06 15:32:23

模型AI測試

2025-01-21 08:00:00

2023-09-19 09:20:16

2021-11-01 10:40:15

機器學習人工智能計算機

2019-01-29 10:27:27

量子計算機芯片超算

2023-08-17 13:30:28

AI測試

2024-01-03 13:37:00

模型數據

2023-06-14 14:57:38

模型AI

2025-11-14 13:40:55

GPT-4oAI模型

2024-02-26 00:50:00

數據AI

2024-12-02 14:20:00

模型訓練

2024-07-02 01:09:02

2023-12-01 10:20:00

谷歌技術

2023-05-22 15:17:02

谷歌AI
點贊
收藏

51CTO技術棧公眾號

国产午夜精品一区二区三区视频| 久久成人高清| 亚洲午夜在线视频| 丁香婷婷久久久综合精品国产| av成人免费网站| 高清日韩中文字幕| 在线观看一区二区视频| 中文字幕精品—区二区日日骚| 国产色综合视频| 亚洲伦理精品| 日韩在线视频免费观看高清中文| 又黄又色的网站| 欧美不卡高清一区二区三区| 亚洲三级电影网站| 久久综合给合久久狠狠色| 一级黄色免费片| 99亚洲视频| 久久精品久久久久久| 久久人人妻人人人人妻性色av| 亚洲精品555| 亚洲成人手机在线| 亚洲一区尤物| 国 产 黄 色 大 片| 日本视频中文字幕一区二区三区| 欧美多人爱爱视频网站| 成人黄色a级片| 国产精品白浆| 欧美一级高清片| 最近免费中文字幕中文高清百度| 永久免费网站在线| 亚洲国产精品激情在线观看| 国产福利一区二区三区在线观看| 中文字幕视频二区| 亚洲女人av| 久久久久亚洲精品国产 | 不卡av电影在线播放| 成人春色激情网| 成人免费一级片| 亚洲欧美卡通另类91av| 色中色综合影院手机版在线观看| 免费看91的网站| 亚洲美女久久| 日韩av一区在线| 日本国产在线视频| 在线视频亚洲欧美中文| 91精品国产91久久久久久一区二区 | 天堂久久久久久| 国产厕拍一区| 欧美videos中文字幕| 男生操女生视频在线观看| 在线成人视屏| 91福利在线导航| 成年人视频网站免费观看| 大黄网站在线观看| 亚洲综合一区在线| 久久福利一区二区| 色呦呦在线观看视频| 亚洲精品日韩一| 国产精品一二三在线观看| 麻豆网站在线观看| 亚洲女同女同女同女同女同69| 亚洲精品视频一区二区三区| yourporn在线观看视频| 日本一区二区高清| 一区二区三区四区| 黄色一级大片在线免费看产| 17c精品麻豆一区二区免费| 永久久久久久| av黄在线观看| 亚洲成人在线观看视频| 欧美性大战久久久久xxx| 韩国久久久久久| 91高清在线观看| 激情文学亚洲色图| 色播一区二区| 日韩成人在线视频网站| 欧美做受高潮6| 色狮一区二区三区四区视频| 日韩中文综合网| 黄色一级视频免费| 影音先锋国产精品| 青青草原成人在线视频| 波多野结衣在线电影| 久久99国产乱子伦精品免费| 91在线精品视频| 天堂在线免费av| 国产女人aaa级久久久级| 中文字幕久久综合| 好久没做在线观看| 在线影院国内精品| 欧美精品一区视频| 国产制服丝袜在线| 亚洲 日韩 国产第一| 亚洲天堂一区在线观看| 奇米四色…亚洲| 97久久人人超碰caoprom欧美| 色婷婷av一区二区三| 国产亚洲精品7777| 国产精品igao激情视频| 亚洲精品88| 91精品国产综合久久久蜜臀粉嫩 | 国产91精品免费| 久久综合久久久| 成人在线免费看黄| 黑人欧美xxxx| 亚洲高清视频免费| 午夜精品福利影院| 美女精品视频一区| 中文字幕av影院| 国产精品综合久久| 日韩久久久久久久| 久草在线资源站资源站| 欧美日韩一区二区在线观看视频| av天堂一区二区| 久久激情电影| 欧美在线免费观看| 99re只有精品| 亚洲国产精品精华液ab| 久久久久久久久久久视频| 在线日韩三级| 亚洲香蕉伊综合在人在线视看| 欧美日韩偷拍视频| 男人的天堂久久精品| 粉嫩av一区二区三区免费观看| 99视频在线观看地址| 精品成人av一区| 欧美一区二区三区影院| 欧美freesextv| 人九九综合九九宗合| 亚洲精品视频专区| 亚洲色图制服诱惑| 超碰在线97免费| 偷拍精品福利视频导航| 欧美激情在线狂野欧美精品| 国产口爆吞精一区二区| 国产精品麻豆欧美日韩ww| 免费成人在线视频网站| 国产精品对白| 久久久久久亚洲| 精品久久久无码中文字幕| 国产精品成人在线观看| 999精品视频在线| 欧美女优在线视频| 热99在线视频| 青青操在线视频| 欧美午夜久久久| 2一3sex性hd| 91久久午夜| 国产一区二区三区高清| 999福利在线视频| 亚洲第一视频网| 日本三级理论片| gogogo免费视频观看亚洲一| 国产欧美久久久久| 澳门精品久久国产| 97视频在线观看免费| 开心激情综合网| 亚洲成av人片| 亚洲天堂资源在线| 亚洲综合另类| 日本精品视频一区| 成人日韩av| 久久精品国亚洲| 精品国产av鲁一鲁一区| 亚洲夂夂婷婷色拍ww47| 国产精品久久久久久亚洲av| 亚洲天堂久久| 快播日韩欧美| 日韩一级二级 | 蜜桃av免费观看| 韩国视频一区二区| av一区二区三区免费观看| 国产另类在线| 国产精品第二页| 国产一二三区在线观看| 精品久久久久一区| 黑人精品无码一区二区三区AV| 久久久久久电影| 日本激情综合网| 欧美aⅴ99久久黑人专区| 国产亚洲福利社区| 亚洲成av在线| 久久色在线播放| 欧美综合视频在线| 色婷婷久久久综合中文字幕| 国产精品suv一区二区88| 国产乱理伦片在线观看夜一区| 国产美女主播在线播放| 国内成人精品| 91免费在线观看网站| 欧美激情20| 色婷婷综合成人av| 人人妻人人澡人人爽精品日本| 色综合欧美在线视频区| 黑人操日本美女| 99精品欧美一区二区蜜桃免费| 欧美自拍小视频| 尤物网精品视频| 亚洲国产欧洲综合997久久| 伊人久久噜噜噜躁狠狠躁| 国产91露脸中文字幕在线| 黄色小网站在线观看| 精品视频—区二区三区免费| 国产精品久久久久久久免费看| 亚洲国产精品一区二区久久恐怖片| 日本xxxxxxxxx18| 成人污污视频在线观看| 午夜dv内射一区二区| 国内揄拍国内精品久久| 日韩精品成人一区二区在线观看| 最新国产精品精品视频| 国产成一区二区| 丝袜在线观看| 最近2019中文字幕mv免费看| 天堂8在线视频| 91精品国产一区二区三区蜜臀| 亚洲欧美综合另类| 亚洲综合区在线| a一级免费视频| 久久久久久夜精品精品免费| 无码人妻丰满熟妇区毛片蜜桃精品 | 国产午夜亚洲精品午夜鲁丝片| 超级砰砰砰97免费观看最新一期| 日韩国产欧美三级| 国产二区视频在线播放| 国产主播一区| 日本精品免费视频| 欧洲乱码伦视频免费| 久久99精品久久久久久三级 | 国产视频精品在线| 亚洲成人久久精品| 91精品国产综合久久蜜臀| 在线观看国产精品视频| 色综合久久中文字幕综合网 | 在线视频中文字幕一区二区| 日本一本高清视频| 亚洲一区二区欧美激情| 国产av无码专区亚洲av毛网站 | 国产在线视频99| 亚洲美女少妇撒尿| 国产性生活大片| 一区在线观看免费| 黄色精品视频在线观看| 国产精品欧美精品| 精品人体无码一区二区三区| 久久精品一区蜜桃臀影院| 免费看黄色aaaaaa 片| 不卡视频一二三四| 国产日韩视频一区| 成人亚洲一区二区一| 91精品人妻一区二区三区四区| 国产一区二区三区四区五区美女 | 国产一区二区三区三州| 欧美日韩国产综合久久| 在线观看视频中文字幕| 欧美日韩性生活| 一区二区三区亚洲视频| 欧美电影一区二区| 国产女18毛片多18精品| 欧美一区二区在线免费观看| 国产黄色小视频在线观看| 日韩女优av电影| 少妇高潮一区二区三区69| 日韩二区三区在线| 黄色片在线免费看| 中文字幕av一区中文字幕天堂| 午夜不卡视频| 久久久国产精彩视频美女艺术照福利| av在线免费网站| 欧美精品福利在线| 新版的欧美在线视频| 国产mv免费观看入口亚洲| 欧美伊人亚洲伊人色综合动图| 成人国产精品色哟哟| 136导航精品福利| 久久久av水蜜桃| 欧美精品系列| 国产成人免费高清视频| 亚洲人体大胆视频| 成人黄色一区二区| 极品少妇xxxx偷拍精品少妇| 男人添女人荫蒂国产| 97精品国产露脸对白| 日本美女xxx| 伊人婷婷欧美激情| 超碰中文字幕在线| 欧美高清视频一二三区| 成人免费观看在线视频| 亚洲天堂成人在线| av毛片在线免费看| 日av在线播放中文不卡| 精品久久亚洲| 欧美精品一区二区三区四区五区 | 国产日韩欧美高清在线| 国产免费美女视频| 精品国产成人av| 曰批又黄又爽免费视频| 亚洲第一av网站| av网站大全在线观看| 欧美激情精品久久久久久| 日本在线精品| 国产精品二区三区| 日韩久久精品| 国产精品无码av在线播放| 精品一区二区影视| 精品无码一区二区三区| 一区二区三区成人| 中文字幕免费播放| 日韩电影中文 亚洲精品乱码| 黄色网页在线播放| 国产精品视频不卡| 自拍偷拍欧美一区| 日本欧美视频在线观看| 国产一区欧美一区| 久久免费手机视频| 色综合久久久久久久久| 亚洲成人中文字幕在线| 久久精品人人爽| 亚洲伦理影院| 久久天堂国产精品| 在线免费高清一区二区三区| 免费黄频在线观看| 国产精品网站在线观看| 日本视频免费观看| 日韩国产在线播放| 欧美1234区| 91久久大香伊蕉在人线| 99国产**精品****| 欧美日韩亚洲自拍| 久久一区二区三区四区| 91看片在线播放| 精品国产网站在线观看| gogo在线高清视频| 91中文在线观看| 91成人网在线观看| 欧美性受xxxxxx黑人xyx性爽| 国产嫩草影院久久久久| 无码人妻丰满熟妇奶水区码| 亚洲精品自产拍| 欧美日韩视频网站| 欧美三级华人主播| 久久最新视频| 69精品无码成人久久久久久| 欧美性猛交xxxx免费看| 亚洲欧美日本在线观看| 色黄久久久久久| 精品黄色免费中文电影在线播放 | 中文字幕超碰在线| 精品亚洲aⅴ在线观看| xxx性欧美| 精品国产免费人成电影在线观...| 亚洲一区 二区 三区| 手机看片福利盒子久久| 欧美国产精品久久| 老熟妇一区二区三区| 在线观看国产精品日韩av| 自拍视频在线看| 涩涩涩999| 日本人妖一区二区| 国产真实乱人偷精品人妻| 欧美系列日韩一区| 在线免费看a| 91精品久久久久久久久久久久久久| 精品国产一区二区三区av片| 亚洲久久中文字幕| 1024精品合集| 中文字幕在线视频第一页| 日韩中文字幕在线| 91麻豆精品| 国产在线播放观看| 99re热视频这里只精品| 五月激情丁香网| 色七七影院综合| 在线精品视频一区| www.av中文字幕| 国产91精品一区二区| caoporn国产| 这里只有精品久久| 亚洲日本va| 少妇高潮毛片色欲ava片| 久久先锋资源网| 色婷婷久久综合中文久久蜜桃av| 久久精品亚洲精品| 2020国产精品极品色在线观看| 成年网站在线免费观看| 国产欧美一区二区三区网站| 免费黄色片视频| 欧美精品免费看| 黄色免费大全亚洲| 手机版av在线| 一区二区三区国产精品| 国自产拍在线网站网址视频| 国产精品三级久久久久久电影| 在线观看免费一区二区| 800av在线播放| 欧美日本在线看| 激情影院在线| 免费中文日韩| 高清成人免费视频| 中文字幕高清在线免费播放|