精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率

發布于 2024-6-3 09:56
瀏覽
0收藏

自 2017 年被提出以來,Transformer 已成為 AI 大模型的主流架構,一直穩站 C 位。


但所有研究者都不得不承認的是,Transformer 在算數任務中表現非常糟糕,尤其是加法,這一缺陷在很大程度上源于 Transformer 無法跟蹤大范圍數字中每個數字的確切位置。


為了解決這個問題,來自馬里蘭大學、CMU 等機構的研究者向這一問題發起了挑戰,他們通過在每個數字中添加一個嵌入來解決這個問題,該嵌入編碼數字相對于開頭的位置。該研究發現,只用一天時間在單個 GPU 上訓練 20 位數字,就可以達到最新的性能水平,100 位數字加法問題高達 99% 的準確率。


單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率-AI.x社區


論文地址:https://arxiv.org/pdf/2405.17399

項目地址:https://github.com/mcleish7/arithmetic

標題:Transformers Can Do Arithmetic with the Right Embeddings


具體而言,研究者建議對數據表示進行一個簡單的修改,就能解決這個缺點。他們提出了 Abacus 嵌入用于編碼每個數字符號 token 范圍內的位置。將 Abacus 嵌入與標準位置嵌入結合使用后,該研究觀察到 Transformer 在算數任務上的準確率有顯著提高,以至于最多只訓練了 20 位數操作數的模型可以泛化到 120 位數操作數的問題。這一數字代表了 6 倍的 SOTA 泛化因子,而以前的最先進的泛化因子也只有 2.5 倍。據了解,這是迄今為止被證明的最長的學習加法序列。


此外,本文還研究了幾種其他方法來改善 transformer 在算術和泛化方面的性能,他們發現結合輸入注入(input injection),即在輸入層和每個解碼器層之間插入跳躍連接,可以在 Abacus 嵌入基線上減少 50% 的泛化誤差。本文還發現,與嵌入結合使用的 looped transformer 架構可以在加法問題上實現幾乎完美的泛化。


本文的貢獻可以總結如下:


  • 本文提出了一種新的位置嵌入,稱為 Abacus 嵌入,以更好地捕獲每個數字的重要性,從而實現近乎完美的分布內泛化;
  • 研究表明,當將 Abacus 嵌入與輸入注入和 looped transformer 相結合時,性能會進一步提高,分布外準確率從 92.9% 提高到 99.1%,與單獨使用標準架構的嵌入相比,誤差降低了 87%;
  • 研究者將這些發現擴展到更復雜的問題,包括乘法和排序,在這些領域也展現出了長度泛化。


實現加法的長度泛化


作者研究了一系列方法,旨在提高從頭開始訓練的語言模型在算術能力上的表現。他們主要關注兩個假設:1)數字內各個位數的位置信息正在丟失;2)循環可以提高 Transformer 架構在多步算術推理問題上的推理能力。在詳細描述每項改進之前,作者簡要討論了訓練和評估設置。


實驗設置


作者訓練了僅包含解碼器的因果語言模型來解決加法問題。


他們考慮了兩種標準 transformer 架構。首先,他們使用一個標準的自回歸 transformer 模型,多個解碼器層以前饋方式堆疊。其次,他們通過輸入注入(input injection)增強了這一標準 transformer 模型,即把嵌入的輸入添加到每個解碼器層的輸入中。作者在圖 20 中直觀地描述了這些架構。


單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率-AI.x社區


Abacus 嵌入幫助對齊數字


通過之前的研究和初步實驗,作者發現,即使輸入的數字是先顯示最不重要的數字,訓練數據是分層的、豐富的(幾百萬個例子),標準 transformer 也很難學習多位數加法。他們還觀察到,人類在進行長加法運算時,會先將數位相同的數字排列成列。因此,作者的第一個假設是,對于 transformer 來說,每個數字的數位并不容易表示,而且這個子問題比實際加法本身帶來的障礙更大。


為了解決 transformer 在表示位置信息方面的局限性,作者設計了一種特殊的位置嵌入,它可以編碼每個數字相對于當前數字起始位置的位置。作者將其稱之為 Abacus 嵌入。他們將相同的位置嵌入應用于所有具有相同數位的數字,從而提供一個顯式的信號,供模型用于對齊數字,如圖 2 所示。


單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率-AI.x社區


Abacus 嵌入解決加法問題


對于標準 transformer 架構,Abacus 嵌入可將泛化性能提高到 100 位及以上。在圖 3(左)中,作者強調了 Abacus 嵌入與標準 transformer 架構和嵌入相比,在進行加法運算時所具有的比較優勢,取三種模型在所有情況下的平均準確度。



單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率-AI.x社區


圖 1 還顯示了使用 FIRE 和 Abacus 訓練的標準 transformer 模型的準確度結果,這些模型經過了域內 (ID) 和域外 (OOD) 測試。


單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率-AI.x社區


Transformer 中的循環提高了性能


在解決位置嵌入問題后,接下來作者探討了循環架構能否進一步提高 transformer 執行多位數加法的能力。他們使用「循環塊(recurrent block)」一詞來指一組具有不同權重的解碼器層,而「循環(recurrence)」則指循環塊的重復次數。作者使用有效深度(effective depth)一詞來指 transformer 中使用的層數,無論其權重是否唯一。除非另有說明,否則他們使用的是最大循環架構,即只循環一個唯一層來達到有效深度。他們還采用了輸入注入、 殘差連接的方式,將輸入的副本傳播到網絡中的每一層。


循環的優勢


在圖 3(右)中,作者比較了使用 FIRE 和 NoPE 嵌入對操作數多達 40 位的加法進行訓練的所有架構變體。盡管參數數量僅相當于其他模型的 1/10,但可以看到,looped transformer(循環的、有輸入注入和漸進損失)在使用任何一種位置嵌入時都取得了最佳的分布外性能。在圖 8 中,作者展示了這一結果在多種訓練數據規模下的穩健性。


單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率-AI.x社區


對于循環模型,可以選擇在訓練時改變每次前向傳遞的循環次數。這往往會提高模型測試時對較難任務的泛化能力,這也被稱為漸進損失計算(progressive loss computation)。這個損失函數是兩個前向傳遞的損失值的凸組合,一個使用字面上的循環數(1 × 16 模型為 16),另一個使用隨機的較小循環數。


接下來,作者探討了在保持有效深度固定的同時改變循環塊大小的效果。他們將循環塊中的層數減半,循環次數增加一倍,從塊中有 16 層、循環次數只有一次(16 × 1,即標準 transformer)的模型,過渡到塊中只有一層、循環次數有 16 次(1 × 16)的模型。


通過圖 4 分析這些結果,作者發現在某些情況下,結合循環和 Abacus 嵌入可以進一步提高性能。具體來說,在 OOD 問題上,有兩個循環的模型(8 × 2)產生的誤差是純非循環模型(16 × 1)的一半,而在 100 + 的 OOD 問題上,其準確率也有所提高。


最后,在附錄 A.7.3 中,作者改變了模型的有效深度,以分析參數數量對這項任務的影響,包括 Abacus、FIRE 和 NoPE 嵌入。雖然圖 4 中的實驗是對不同深度的公平比較,但純粹的標準 transformer 模型比相應的循環模型擁有更多的參數。在附錄的表 3 中,作者記錄了最接近百萬的參數量。


單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率-AI.x社區


單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率-AI.x社區


實驗


研究者不僅對加法問題進行了探討,還對乘法和排序進行了研究。


整數乘法


圖 5 展示了 Abacus 嵌入模型在 15 位數乘法的分布內準確率超過了之前的工作,且不需要用零將每個操作數填充到相同長度。特別地,該研究強調,與僅使用 FIRE 的基線相比,將 Abacus 嵌入與 FIRE 相結合也提高了分布問題中最難的分布準確率 (右下)。


單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率-AI.x社區


數組排序


表 1 展示了使用不同嵌入 ——FIRE、Abacus 及其組合 —— 訓練的標準 transformer(八層)的性能。結果顯示,組合嵌入方法增強了模型的泛化能力。


單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率-AI.x社區


如表 2 所示,研究者觀察到在將 Abacus+FIRE 嵌入組合與不同的模型架構(有效深度為 8)配對時,結果表現出混合性。


單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率-AI.x社區


Abacus 和相關嵌入


圖 6 展示了將 Abacus 嵌入整合到更通用系統中的真正潛力,顯示出 Abacus 嵌入與 FIRE 結合可以解鎖遠超 FIRE 嵌入解決問題的能力。 


單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率-AI.x社區


更多研究細節,請參考原論文。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/zHx_pMk6sHmIm-AJCS_sRA??

標簽
收藏
回復
舉報
回復
相關推薦
国产成人久久久久| 亚洲免费黄色录像| av在线播放av| 福利一区二区在线观看| 欧美亚洲另类激情另类| 成人欧美一区二区三区黑人一| 国产精品日本一区二区不卡视频 | 精品性高朝久久久久久久| 亚洲成人福利在线观看| ****av在线网毛片| 中文字幕一区二区三区不卡 | 99热国内精品永久免费观看| 亚洲国产一区二区三区在线观看 | 色婷婷成人综合| 精品人妻一区二区三区日产| 亚洲精品第一| 欧美色道久久88综合亚洲精品| 亚洲最新免费视频| 免费成人av电影| 成人午夜看片网址| 91亚洲午夜在线| 国产第一页在线观看| 亚洲小说欧美另类社区| 日韩在线观看免费网站| 久久久久久九九九九九| 另类春色校园亚洲| 日韩亚洲欧美成人一区| 亚洲天堂网2018| 成人在线爆射| 色综合久久久网| 老太脱裤子让老头玩xxxxx| 国内外激情在线| 久久久久久毛片| 精选一区二区三区四区五区| 亚洲高清在线观看视频| 国产一区二区不卡在线| 国产精品亚洲第一区| 国产无遮挡又黄又爽又色视频| 午夜在线视频一区二区区别| 97在线观看视频国产| 久久高清免费视频| 精品动漫3d一区二区三区免费版| 欧美精品情趣视频| 黄视频网站免费看| 91精品国产91久久久久久密臀| 尤物tv国产一区| 久久视频精品在线观看| 国产精品午夜一区二区三区| 亚洲精品之草原avav久久| 久久偷拍免费视频| 青青一区二区| 亚洲欧美日韩国产精品| 国产真实乱人偷精品人妻| 欧美日韩123| 亚洲人成网在线播放| 免费看91的网站| 不卡一区2区| 最近中文字幕2019免费| 操她视频在线观看| 日韩综合在线| 久久综合网hezyo| 欧美黄片一区二区三区| 雨宫琴音一区二区在线| 91国产视频在线| 久久精品国产成人av| 美女视频一区免费观看| 国产精品福利在线| 国产精品久久久久久在线| 国产在线精品国自产拍免费| 成人在线免费观看一区| 四虎影视2018在线播放alocalhost| 久久亚洲捆绑美女| 亚洲高清乱码| 在线观看操人| 欧美日韩国产在线| 日韩精品视频一二三| 麻豆国产一区| 日韩www在线| 国产高清一区二区三区四区| 小小影院久久| 555www成人网| 91激情在线观看| 国产麻豆精品视频| 鲁丝一区二区三区免费| 在线激情免费视频| 亚洲一区二区三区不卡国产欧美| 久久久999视频| 日韩黄色三级在线观看| 精品99999| 免费看日本黄色片| 亚洲二区免费| 国产美女精品视频| 日韩在线视频第一页| 国产精品国产三级国产三级人妇 | 久久久久久久久一区二区| 9191在线| 黑人巨大精品欧美一区二区三区 | 天天色综合社区| 国产精品网在线观看| 中文字幕不卡在线视频极品| 乱h高h女3p含苞待放| 亚洲在线免费| 亚洲aaa激情| yiren22亚洲综合伊人22| 一区二区三区四区在线播放 | 国产亚洲美女精品久久久| 免费网站看av| 精品一区二区三区在线视频| 鲁丝一区二区三区免费| 青草影视电视剧免费播放在线观看| 在线免费视频一区二区| 你懂的在线观看网站| 91精品一区二区三区综合| 欧美一级免费看| 成 人 黄 色 片 在线播放| 中文字幕第一区综合| 国产视频一视频二| 一区二区三区四区精品视频| 日韩在线欧美在线| 天堂网视频在线| av网站一区二区三区| 日韩最新中文字幕| 成人国产在线| 亚洲欧洲国产一区| 久久久久久久黄色片| 成人免费av在线| 日本一区二区三区四区五区六区| 99久久伊人| 亚洲欧美在线一区二区| 日本亚洲欧美在线| 成人丝袜18视频在线观看| www.-级毛片线天内射视视| 电影一区电影二区| 亚洲最大在线视频| 波多野结衣二区三区| 91视视频在线观看入口直接观看www| 激情五月婷婷六月| 成人三级毛片| 韩国一区二区电影| 全部免费毛片在线播放一个| 一区二区三区欧美久久| 永久看看免费大片| 欧美精品啪啪| 国产精品一区二区三区免费| 色操视频在线| 精品99久久久久久| www.国产色| 国产天堂亚洲国产碰碰| 国产一级不卡毛片| 日韩免费一区| 91美女福利视频高清| 成人在线视频亚洲| 日韩一区二区三区电影在线观看| 欧美激情一区二区视频| 国产成人午夜99999| 国产精品久久久久久久久电影网| 国产成人福利av| 欧美在线视频导航| av在线资源站| 91麻豆精品国产91久久久更新时间| 日韩激情小视频| 国产精品一区久久久久| 欧美亚洲日本一区二区三区| 伊人久久大香线蕉| 国产一区玩具在线观看| 中文字幕中文字幕在线十八区| 精品精品国产高清a毛片牛牛| 日操夜操天天操| 国产亚洲精品aa午夜观看| 182午夜在线观看| 国产综合色产| 美乳视频一区二区| 狂野欧美性猛交xxxx| 欧美成人免费全部| 亚洲 国产 欧美 日韩| 欧美亚洲动漫精品| 99视频只有精品| 91亚洲精品一区二区乱码| 国产性生交xxxxx免费| 亚洲一区二区三区| 国产精品亚洲综合| 欧美日韩在线精品一区二区三区激情综合| 日韩视频免费大全中文字幕| 免费a级片在线观看| 91豆麻精品91久久久久久| 永久免费看片直接| 99re视频这里只有精品| 午夜av中文字幕| 性伦欧美刺激片在线观看| 水蜜桃亚洲精品| 成人激情自拍| 国产欧美一区二区白浆黑人| 国内精彩免费自拍视频在线观看网址| 一区国产精品视频| 免费观看的毛片| 欧美三级视频在线| 免费日韩一级片| 综合亚洲深深色噜噜狠狠网站| 国产草草浮力影院| 精品亚洲成a人| 欧美日韩国产精品激情在线播放| 国产精品久久久久一区二区三区厕所| 精品高清视频| 精品一区二区三区视频在线播放| 日韩av男人的天堂| 久草在线新免费首页资源站| 色婷婷av一区二区三区在线观看 | 北条麻妃99精品青青久久| 爽爽视频在线观看| 欧美精品一区二区三区在线播放| 中文字幕日产av| 日韩欧美精品在线观看| 久久久久久久久久一区二区三区| 亚洲国产激情av| 好吊视频在线观看| 成人动漫一区二区| 巨乳女教师的诱惑| 六月婷婷色综合| 日韩av播放器| 久久精品亚洲一区二区| 妞干网在线视频观看| 综合国产精品| 国产福利片一区二区| 波多野结衣在线观看一区二区| 免费av一区二区三区| 精品久久ai电影| 国产精品一区二区免费看| 亚洲五码在线| 亚洲最大激情中文字幕| 成人久久精品| 成人免费福利在线| 日韩欧美激情| 国产精品一区二区久久| 国产精品高清乱码在线观看| 国产成+人+综合+亚洲欧洲| 日本乱码一区二区三区不卡| 韩国欧美亚洲国产| 黄色在线观看www| 91tv亚洲精品香蕉国产一区7ujn| 高潮在线视频| 国语自产精品视频在线看一大j8| 国产第一页在线| 欧美激情中文字幕在线| 成人黄色动漫| 欧美孕妇性xx| 久久r热视频| 国产精品久久久久久久久久久久久久| 欧美成人资源| 国产精品九九久久久久久久| 成人黄色视屏网站| 国产玖玖精品视频| 精品一区二区三区亚洲| av一区二区三区免费| 红杏aⅴ成人免费视频| 精品乱码一区| 精品视频国产| 中文字幕一区二区三区有限公司| 影音先锋日韩精品| 福利在线一区二区| 久久精品人人做人人爽电影蜜月| 在线免费视频a| 久久国产精品99久久人人澡| 亚洲在线观看网站| 岛国av在线一区| 免费看黄色aaaaaa 片| 中文字幕乱码日本亚洲一区二区| 欧美一级特黄高清视频| 亚洲自拍偷拍网站| 欧美一级视频免费观看| 欧美丝袜丝交足nylons| 国产99久一区二区三区a片| 亚洲激情在线观看| jzzjzzjzz亚洲成熟少妇| 久久精品视频亚洲| 国产剧情av在线播放| 国产精品激情av在线播放| 欧美电影在线观看一区| 麻豆一区区三区四区产品精品蜜桃| 国产成人精品免费视| 可以免费看的黄色网址| 国产亚洲午夜| 日韩av一卡二卡三卡| 成人教育av在线| 无码人妻丰满熟妇啪啪欧美| 亚洲精品你懂的| 激情五月色婷婷| 欧美日韩视频在线第一区| 亚洲黄色小说网址| 一本色道久久88综合亚洲精品ⅰ | 999精品色在线播放| 亚洲色成人www永久在线观看| 天堂蜜桃91精品| 9191在线视频| 国产精品三级av| 国产无套内射又大又猛又粗又爽 | 欧美亚洲激情视频| 国产精品视频首页| 日韩福利影院| 黄色精品网站| 亚洲精品www.| 久久伊人蜜桃av一区二区| 欧美激情一区二区视频| 欧美日韩精品电影| 你懂的免费在线观看| 欧美激情女人20p| jvid一区二区三区| 欧美日韩免费精品| 伊人久久婷婷| 少妇愉情理伦片bd| 欧美激情一二三区| 日韩免费视频一区二区视频在线观看| 91精选在线观看| 9色在线观看| 国产97色在线|日韩| 国产成人av毛片| www.亚洲成人网| 精品一区二区在线看| 成年人视频软件| 一本大道久久a久久综合| 少妇高潮一区二区三区69| 蜜臀久久99精品久久久无需会员 | 国产伦精品一区二区三区高清版| 天堂美国久久| 一区二区xxx| 国产女同性恋一区二区| 日韩熟女一区二区| 日韩成人高清在线| 91av久久| 精品乱色一区二区中文字幕| 亚洲天堂偷拍| 艳妇乳肉豪妇荡乳xxx| 亚洲综合另类小说| 亚洲AV无码一区二区三区性| 另类图片亚洲另类| 精品国产第一国产综合精品| 国产在线拍揄自揄拍无码| 美女网站色91| 欧美性生给视频| 884aa四虎影成人精品一区| 日韩在线资源| 91久久在线视频| 欧美国产91| 佐佐木明希电影| 亚洲国产精品一区二区www | 波多野结衣一区二区三区在线| 亚洲摸下面视频| 在线成人视屏| 亚洲啪啪av| 韩日欧美一区二区三区| 欧美肥妇bbwbbw| 欧美一区二区三区视频免费播放| 99福利在线| 激情五月综合色婷婷一区二区 | 精品成人免费| 亚洲熟妇无码av| 欧美影视一区二区三区| 免费在线观看av网站| 亚洲一区二区三区777| 欧美日韩亚洲一区| 中文字幕一区二区久久人妻网站| 日韩欧美成人网| av电影在线观看| 91亚洲精品一区| 99精品国产福利在线观看免费| 强伦人妻一区二区三区| 欧美日韩在线三级| 女子免费在线观看视频www| 精品国产一区二区三区麻豆免费观看完整版 | 国产精品高清无码| 久久久国产成人精品| 91精品入口| 亚洲国产精品毛片av不卡在线| 国产精品久久久久久久久免费丝袜| 99久久精品国产色欲| 97超级碰碰人国产在线观看| 欧美欧美黄在线二区| 一本之道在线视频| 欧美性猛交xxxx乱大交蜜桃 | 欧美亚洲精品在线| 亚洲国产日韩在线一区| 色综合久久中文综合久久牛| 看黄网站在线| 久热国产精品视频一区二区三区| 久久精品国产久精国产爱| 国产无遮挡又黄又爽| 日韩在线视频网| 日韩av系列| 日韩欧美理论片| 色哟哟国产精品免费观看| 粗大黑人巨茎大战欧美成人| 欧美精品中文字幕一区二区| 韩国精品一区二区| 男人天堂av在线播放| 欧美激情2020午夜免费观看| 精品国产网站| 成人区人妻精品一区二 | 欧美一级淫片aaaaaa| 国产精品一区二区在线| 亚洲三级网站| 美女福利视频在线观看|