精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

算數(shù)能力接近滿分!新加坡國立大學發(fā)布Goat,僅用70億參數(shù)秒殺GPT-4,起步支持16位數(shù)乘除法

人工智能 新聞
語言模型終于會乘除法了!

大規(guī)模語言模型雖然在各大自然語言處理任務上都展現(xiàn)了優(yōu)越的性能,不過算術類題目仍然是一大難關,即便是當下最強的GPT-4也很難處理基礎運算的問題。

最近,來自新加坡國立大學的研究人員提出了一個專供算術的模型山羊Goat,在LLaMA模型基礎上微調后,實現(xiàn)了顯著優(yōu)于GPT-4的算術能力。

圖片

論文鏈接:https://arxiv.org/pdf/2305.14201.pdf

通過對合成的算術數(shù)據(jù)集進行微調,Goat在BIG-bench算術子任務上實現(xiàn)了最先進的性能,

Goat僅通過監(jiān)督微調就可以在大數(shù)加減運算上實現(xiàn)近乎完美的準確率,超越了之前所有的預訓練語言模型,如Bloom、OPT、GPT-NeoX等,其中零樣本的Goat-7B所達到的精度甚至超過了少樣本學習后的PaLM-540

研究人員將Goat的卓越性能歸功于LLaMA對數(shù)字的一致性分詞技術。

為了解決更有挑戰(zhàn)性的任務,如大數(shù)乘法和除法,研究人員還提出了一種方法,根據(jù)算術的可學習性對任務進行分類,然后利用基本的算術原理將不可學習的任務(如多位數(shù)乘法和除法)分解為一系列可學習的任務。

通過全面的實驗驗證后,文中提出的分解步驟可以有效地提升算術性能。

并且Goat-7 B可以在24 GB VRAM GPU上使用LoRA高效訓練,其他研究人員可以非常容易地重復該實驗,模型、數(shù)據(jù)集和生成數(shù)據(jù)集的python腳本即將開源。

會算數(shù)的語言模型

語言模型

LLaMA是一組開源的預訓練語言模型,使用公開可用的數(shù)據(jù)集在數(shù)萬億個token上進行訓練后得到,并在多個基準測試上實現(xiàn)了最先進的性能。

先前的研究結果表明,分詞(tokenization)對LLM的算術能力很重要,不過常用的分詞技術無法很好地表示數(shù)字,比如位數(shù)過多的數(shù)字可能會被切分。

圖片

LLaMA選擇將數(shù)字切分為多個token,確保數(shù)字表示的一致性,研究人員認為,實驗結果中表現(xiàn)出的非凡算術能力主要歸功于LLaMA對數(shù)字的一致性分詞。

在實驗中,其他微調后的語言模型,如Bloom、OPT、GPT-NeoX和Pythia,無法與LLaMA的算術能力相匹配。

算術任務的可學習性(Learnability of Arithmetic Tasks)

之前有研究人員對使用中間監(jiān)督解決復合任務(composite task)進行了理論分析,結果表明這種任務是不可學習的,但可以分解為多項式數(shù)量的簡單子任務。

也就是說,不可學習的復合問題可以通過使用中間監(jiān)督或逐步思維鏈(CoT)來學習。

在此分析基礎上,研究人員首先對可學習和不可學習任務進行實驗分類。

在算術計算的背景下,可學習任務通常是指那些可以成功訓練模型以直接生成答案的任務,從而在預定義數(shù)量的訓練epochs內實現(xiàn)足夠高的精度。

不可學習的任務是那些即使經過廣泛訓練,模型也難以正確學習和生成直接答案的任務。

雖然任務可學習性變化背后的確切原因尚不完全清楚,但可以假設這與基本模式的復雜性和完成任務所需的工作記憶大小有關。

圖片

研究人員通過在簡化的合成環(huán)境中專門針對每個任務微調模型來實驗檢查這些任務的可學習性。

圖片

可學習的和不可學習的任務

任務分類的結果也與人類的感知相同,通過實踐,人類可以在腦海中計算兩個大數(shù)字的加法和減法,無需手算的情況下,可以直接從左(最高有效數(shù)字)到右(最低有效數(shù)字)寫下最終的數(shù)字答案。

不過心算解決大數(shù)乘法和除法是一項具有挑戰(zhàn)性的任務。

還可以觀察到,上述對任務的分類結果與GPT-4的性能也一致,特別是GPT-4擅長為大數(shù)加法和減法生成直接答案,當涉及到多位乘法和除法任務時,準確性會顯著下降。

像GPT-4這樣強大的模型無法直接解決不可學習的任務,也可能表明,即使經過廣泛的訓練,為這些任務生成直接答案也是極具挑戰(zhàn)性的。

值得注意的是,對于LLaMA來說是可學習的任務可能不一定對于其他LLM來說是可學的。

此外,并非所有被歸類為不可學習的任務對模型來說都是完全不可能學習到的。

例如,兩位數(shù)乘兩位數(shù)被認為是一項不可學習的任務,但如果訓練集中包含所有可能的2位數(shù)乘法枚舉數(shù)據(jù)的話,模型仍然可以通過過擬合訓練集來直接生成答案。

不過整個過程需要近10個epoch才能達到90%左右的準確率。

而通過在最終答案之前插入文中提出的CoT,該模型可以在1個epoch的訓練后就可以在兩位數(shù)乘法中實現(xiàn)相當不錯的精度,也與之前的研究結論一致,即中間監(jiān)督的存在有助于學習過程。

加法與減法

這兩個算術操作是可學習的,僅通過有監(jiān)督微調,模型就表現(xiàn)出了準確生成直接數(shù)字答案的非凡能力。

盡管模型只是在非常有限的加法數(shù)據(jù)子集上進行了訓練,但從模型在未見過的測試集上實現(xiàn)了近乎完美的準確率上可以看出來,模型成功地捕獲了算術運算的基本模式,并且無需使用CoT

乘法

研究人員通過實驗驗證了n位數(shù)乘1位數(shù)的乘法是可學習的,而多位數(shù)乘法則無法學習。

為了克服這個問題,研究人員選擇在生成答案之前對LLM進行微調以生成CoT,將多位數(shù)乘法分解為5個可學習的子任務:

1. 抽取(extraction),從自然語言指令中抽取算術表達式

2. 拆分(split),將兩者中較小的數(shù)拆分為place值

3. 展開(expansion),基于分配性展開求和

4. 乘積(product),同時計算每個乘積

5. 逐項相加(adding term by term),將前兩項相加,復制其余項,得到最終和

圖片

其中每個任務都是可學習的。

除法

類似地,可以通過實驗觀察到n位數(shù)除以1位數(shù)是可以學習的,而多位數(shù)除法是不可學習的。

研究人員利用改進慢除法的遞推方程,設計了一個全新的思維鏈提示。

圖片

主要思想是從被除數(shù)中減去除數(shù)的倍數(shù),直到余數(shù)小于除數(shù)。

圖片

數(shù)據(jù)集

文章中設計的實驗為兩個正整數(shù)的加法和減法,每個正整數(shù)最多包含16位數(shù)字,并且減法運算的結果可能是負數(shù)。

為了限制生成的最大序列長度,乘法的結果為12位以內的正整數(shù);兩個正整數(shù)的除法中,被除數(shù)小于12位,商值6位數(shù)以內。

研究人員使用Python腳本合成了一個數(shù)據(jù)集,生成了大約100萬個問答對,答案包含提出的CoT以及最終的數(shù)字輸出,所有數(shù)字都是隨機生成的,可以保證重復實例的概率非常低,不過小數(shù)字可能會被多次采樣。

微調

為了使該模型能夠基于指令解決算術問題,并促進自然語言問答,研究人員使用ChatGPT生成了數(shù)百個指令模板。

在指令調整過程中,從訓練集中為每個算術輸入隨機選擇一個模板,并微調LLaMA-7B,類似于Alpaca中使用的方法。

圖片

Goat-7B可以在24GB VRAM GPU上使用LoRA進行微調,在A100 GPU上僅花費大約1.5小時即可完成10萬樣本的微調,并實現(xiàn)近乎完美的精度。

實驗結果

比較Goat和GPT-4在大量乘法和除法方面的性能似乎不公平,因為GPT-4會直接生成答案,而Goat則依賴于設計的思維鏈,所以在GPT-4評估時還在每個提示的結尾加入「Solve it step by step」

圖片

不過可以觀察到,雖然GPT-4在某些情況下,長乘法和除法的中間步驟錯了,但最終答案仍然是正確的,也就意味著GPT-4并沒有利用思維鏈的中間監(jiān)督來提高最終輸出。

最終從GPT-4的解決方案中確定了以下3個常見錯誤:

1. 對應數(shù)字的對齊

2. 重復數(shù)字

3. n位數(shù)乘以1位數(shù)的中間結果錯誤

從實驗結果中可以看插到,GPT-4在8D+8D和16D+16D任務上表現(xiàn)相當好,但在大多數(shù)16D+8D任務上的計算結果都是錯誤的,盡管直觀上來看,16D+8D應該比16D+16D相對容易。

雖然造成這種情況的確切原因尚不清楚,但一個可能的因素可能是GPT-4不一致的數(shù)字分詞過程,使得兩個數(shù)字之間很難對齊.

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-06-07 14:16:11

AIGPT-4

2024-04-12 15:10:12

框架模型

2024-01-30 21:18:57

模型智能CMMLU

2025-02-28 09:32:00

2025-02-19 14:10:00

AI3D生成

2025-07-31 08:40:00

AI模型智能體

2024-12-30 10:20:00

模型數(shù)據(jù)訓練

2023-06-19 08:19:50

2022-12-01 17:41:14

深度學習模型

2022-07-06 14:43:21

決策樹算法

2023-07-12 10:04:20

模型訓練

2023-05-19 13:01:10

ChatGPT模型

2023-03-26 21:03:54

GPT-4人工智能

2021-05-21 08:43:23

Wi-Fi信號電能

2025-04-16 09:35:03

2023-11-15 13:18:50

2025-03-24 13:32:43

2023-08-25 13:12:59

AI開源

2024-12-11 15:00:00

點贊
收藏

51CTO技術棧公眾號

国产日韩欧美综合在线| 久久一综合视频| 欧美不卡视频一区| 亚洲人成无码网站久久99热国产| 亚洲人午夜射精精品日韩| 久久精品道一区二区三区| www.久久久久久.com| jjzz黄色片| 亚洲承认视频| 亚洲欧美日韩中文字幕一区二区三区 | 一级日本黄色片| 123区在线| 国产精品热久久久久夜色精品三区| 2014亚洲精品| 无码人妻精品一区二区| 欧美日韩1080p| 亚洲欧美日韩精品| 亚洲欧美综合视频| 欧洲亚洲精品久久久久| 黄色成人在线播放| 国产欧美123| av资源种子在线观看| 波波电影院一区二区三区| 国产美女直播视频一区| 国产又大又黄视频| 你懂的网址国产 欧美| 一本色道久久88综合亚洲精品ⅰ | 国产69精品久久| 婷婷久久综合九色综合伊人色| 中文字幕精品一区日韩| 精品无人乱码| av电影在线观看完整版一区二区| 91精品综合久久久久久五月天| 丁香六月婷婷综合| 亚洲福利专区| 九九九热精品免费视频观看网站| 欧美午夜激情影院| 男男gay无套免费视频欧美| 亚洲国产高潮在线观看| 中文字幕永久免费| www.欧美国产| 稀缺小u女呦精品呦| 国产高清美女一级毛片久久| 国产成人99久久亚洲综合精品| 永久免费看mv网站入口亚洲| 国产欧美精品日韩区二区麻豆天美| 亚洲自拍偷拍av| 国产精品对白一区二区三区| www.黄色com| 在线免费观看黄| 久久久久久久久伊人| 极品日韩久久| 天堂中文在线官网| 成人av资源网站| 国产精品国产一区二区| www男人的天堂| 国产馆精品极品| http;//www.99re视频| 97精品人妻一区二区三区在线| 蜜桃视频在线一区| 国产精品一二三在线| 中文字幕一区二区人妻痴汉电车| 毛片一区二区三区| 91视频国产高清| 国产片高清在线观看| 国产伦精品一区二区三区免费迷 | 久久成人久久爱| 国产在线精品一区免费香蕉 | 日本不卡视频在线观看| 国产日本欧美一区二区三区在线| 91国产精品一区| 国产精品资源在线看| 99在线影院| 少妇一区二区三区四区| 久久欧美一区二区| 亚洲一区bb| 97caopor国产在线视频| 亚洲一区在线观看免费观看电影高清| 国产 欧美 日韩 一区| www成人免费观看| 在线观看日韩高清av| 五月天av在线播放| 视频一区日韩精品| 日韩经典一区二区三区| 性の欲びの女javhd| 中文乱码免费一区二区三区下载| 欧美精品www在线观看| 欧美a∨亚洲欧美亚洲| 青青草国产精品97视觉盛宴| 91在线高清免费观看| 日批视频在线播放| 中文字幕第一区二区| 欧美a级免费视频| 日韩伦理三区| 日韩欧美一区在线观看| 蜜桃精品成人影片| 天天精品视频| 55夜色66夜色国产精品视频| 一本色道久久综合亚洲| 成人国产精品免费观看视频| 日产精品一线二线三线芒果| 羞羞视频在线观看不卡| 色综合色综合色综合| 黄色aaaaaa| 国产成人精品一区二区免费看京| 久久精品夜夜夜夜夜久久| 五月婷婷亚洲综合| 韩国成人福利片在线播放| 国产视频一区二区三区四区| 在线观看免费版| 香蕉成人啪国产精品视频综合网| 超碰成人在线播放| 精品99久久| 久久久女人电视剧免费播放下载| 中文字幕免费播放| 972aa.com艺术欧美| 中文字幕av久久| 免费观看成人性生生活片| 欧美videossexotv100| 国产一级淫片久久久片a级| 国产一区91| 国产成人精品免费视频大全最热| 2017亚洲天堂1024| 色欧美片视频在线观看| av无码一区二区三区| 欧美成人一区二免费视频软件| 国产精品久久久久久久久久免费| 香港三日本三级少妇66| 洋洋成人永久网站入口| 国产精品久久久久久9999| 青青草综合网| 国产精品91久久久久久| 日本福利片高清在线观看| 亚洲777理论| 中国黄色片视频| 欧美日韩日本国产亚洲在线| 亚洲综合色av| 91精品久久久| 欧美一区二区成人6969| av最新在线观看| 九色porny丨国产精品| 日韩视频在线播放| 外国电影一区二区| 国产亚洲精品美女久久久| 无码人妻aⅴ一区二区三区有奶水| av午夜精品一区二区三区| 黄色激情在线视频| 91精品导航| 久久777国产线看观看精品| 99久久精品国产一区色| 亚洲精品免费在线观看| 日本亚洲一区二区三区| 国内精品久久久久久久影视麻豆| 999视频在线免费观看| 日韩av激情| 精品国产制服丝袜高跟| 国产在线观看成人| 99精品久久只有精品| 国产午夜伦鲁鲁| 美女毛片一区二区三区四区| 国产精品高清在线| 日本视频在线免费观看| 欧美高清视频www夜色资源网| 免费91在线观看| 狠狠色丁香婷婷综合久久片| 可以免费看的黄色网址| 一区二区三区四区高清视频| 亚州成人av在线| 黄网站在线观看| 欧美老年两性高潮| 久草网在线观看| 91亚洲国产成人精品一区二区三| 国产精品无码一本二本三本色| 欧美日中文字幕| 亚洲精品日韩av| 国产黄大片在线观看| 一区二区三区高清国产| 国产精品无码专区av免费播放| 亚洲一区中文在线| 一色道久久88加勒比一| 经典三级在线一区| 日本a视频在线观看| 国产精品三级| 亚洲综合精品伊人久久| 高潮一区二区| 久久九九国产精品怡红院| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的| 日韩欧美成人精品| 四虎884aa成人精品| bt7086福利一区国产| 999在线免费视频| 欧美黄色大片网站| 欧美中日韩免费视频| 久久精品一级| 日本精品视频网站| 日韩av激情| 伊人精品在线观看| 日韩一级在线播放| 91.com视频| 欧美日韩综合一区二区三区| 亚洲毛片av在线| 少妇久久久久久久久久| 国产凹凸在线观看一区二区| 色一情一乱一伦一区二区三区日本 | 日韩一级二级三级精品视频| 欧美一区二区激情视频| 亚洲另类在线视频| 一区二区三区久久久久| 成人自拍视频在线| 三级性生活视频| 丝袜美腿亚洲一区| 欧美不卡在线播放| 午夜欧美精品久久久久久久| 日产精品一线二线三线芒果| 另类尿喷潮videofree| 成人夜晚看av| 成人黄色视屏网站| 91chinesevideo永久地址| 91麻豆一二三四在线| 一区二区三区视频观看| 色天堂在线视频| 精品国产自在久精品国产| 国产精品久久久久久久免费| 日本韩国精品一区二区在线观看| 国产乡下妇女做爰视频| 亚洲欧洲综合另类在线| 亚洲色图 激情小说| 久久久久国产精品免费免费搜索| 国内自拍第二页| 看片的网站亚洲| 亚洲高清在线免费观看| 久久av一区二区三区| 欧美不卡在线播放| 亚洲精品综合| 可以在线看的av网站| 精品96久久久久久中文字幕无| 99热这里只有精品免费| 欧美日韩视频| 国产精品一色哟哟| 国产精品扒开腿做爽爽爽软件| avove在线观看| 婷婷综合久久| 午夜在线视频免费观看| 91精品天堂福利在线观看| 伊人久久大香线蕉精品| 欧美3p在线观看| 中文字幕中文字幕在线中一区高清| 日韩av手机版| 欧美精品日本| 波多野结衣av一区二区全免费观看 | 日韩精品中文字幕在线一区| 国产理论视频在线观看| 91精品免费观看| 国产不卡精品视频| 精品日韩在线一区| 日本美女一级视频| 精品亚洲一区二区三区四区五区| 三级在线播放| 一本一本久久a久久精品牛牛影视| 国产日产精品久久久久久婷婷| 怡红院精品视频| 免费av网站在线观看| 欧美成人精品三级在线观看| 久久不射影院| 55夜色66夜色国产精品视频| 欧美日韩亚洲国产| 成人激情在线播放| 亚洲高清在线一区| 久久99国产精品99久久| 在线一级成人| 小说区视频区图片区| 红桃视频国产精品| 黑人糟蹋人妻hd中文字幕| 久久久久久色| 免费网站在线观看黄| 不卡的av网站| 蜜桃av乱码一区二区三区| 日韩毛片视频在线看| 国产一级二级三级| 一本高清dvd不卡在线观看| 中文字幕av免费观看| 日韩欧美一级二级三级| 天天干免费视频| 日韩在线观看高清| 国产盗摄精品一区二区酒店| 国产99在线|中文| 国产一区2区在线观看| 精品国产_亚洲人成在线| 日韩欧美中文| 91丨porny丨探花| 久久成人综合网| 欧美无人区码suv| 中文字幕在线免费不卡| 日本熟妇成熟毛茸茸| 欧美三区在线视频| 黄色av中文字幕| 中日韩午夜理伦电影免费| 国内小视频在线看| 成人黄色免费网站在线观看| 久久久久97| 椎名由奈jux491在线播放| 国产日韩精品视频一区二区三区 | 国产乱人伦偷精品视频免下载| 美女伦理水蜜桃4| 国产精品天美传媒| 伊人手机在线视频| 日韩午夜在线观看| 国产一二三区在线| 久久人人97超碰精品888| 日韩综合久久| 欧美一区观看| 亚洲激情一区| 制服下的诱惑暮生| 国产精品欧美久久久久一区二区| 日本三级一区二区| 欧美一二三在线| 视频免费一区| 日韩美女视频中文字幕| 国内精品麻豆美女在线播放视频| 亚洲在线色站| 奇米影视一区二区三区| 丰满少妇在线观看资源站| 亚洲国产成人高清精品| 国产熟女精品视频| 日韩视频一区在线| 午夜无码国产理论在线| 欧美亚洲另类久久综合| 亚洲激情专区| 一级黄色免费视频| 亚洲精品久久久蜜桃| 97精品人妻一区二区三区| 综合激情国产一区| 成人网ww555视频免费看| 狼狼综合久久久久综合网| 99热在线精品观看| 在线观看成人动漫| 亚洲成人免费视频| 人人妻人人澡人人爽精品日本| 欧美激情精品久久久久久免费印度| www.久久久.com| 黄瓜视频免费观看在线观看www | 五月天亚洲精品| 高潮一区二区三区乱码| 欧美黑人xxx| 亚洲综合色婷婷在线观看| 成年人深夜视频| 成人高清视频免费观看| 国产一级视频在线播放| 欧美精品一区二区三| h片在线观看视频免费| 国产综合av一区二区三区| 国产精品最新自拍| 亚洲第一香蕉网| 91福利国产成人精品照片| yiren22亚洲综合伊人22| 国产精品爽爽爽| 亚欧美无遮挡hd高清在线视频| 国产传媒免费观看| 亚洲在线视频一区| 丝袜+亚洲+另类+欧美+变态| 欧美一级大片在线观看| 精品日韩欧美一区| 久国产精品视频| 亚洲一区二区三区自拍| 性xxxx视频播放免费| 日韩av黄色在线观看| 色999国产精品| 人妻激情偷乱视频一区二区三区| 亚洲一区二区中文在线| 三级在线视频| 国产免费一区二区三区在线观看| 亚洲精品tv久久久久久久久久| 18禁一区二区三区| 欧美日韩在线免费观看| 爱爱爱免费视频在线观看| 91社区国产高清| 中文久久精品| 亚洲欧美另类日本| 精品国产伦一区二区三区观看体验| 大桥未久在线视频| 色噜噜一区二区| 国产高清精品网站| 潘金莲一级淫片aaaaaa播放| 精品国产一区av| 欧美激情极品| 成年人三级黄色片| 婷婷六月综合网| 拍真实国产伦偷精品| 国产一区喷水| 美女免费视频一区| 精品无码久久久久| 在线观看不卡av| 在线观看视频一区二区三区| 91av俱乐部| 亚洲一卡二卡三卡四卡五卡| 精品美女视频在线观看免费软件| 亚洲va久久久噜噜噜久久天堂| 国产九九精品| 在线观看成人毛片| 在线成人中文字幕|