精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-3解數學題準確率升至92.5%!微軟提出MathPrompter,無需微調即可打造「理科」語言模型

人工智能 新聞
ChatGPT的文科腦有救了!

大型語言模型最為人詬病的缺點,除了一本正經地胡言亂語以外,估計就是「不會算數」了。

圖片

比如一個需要多步推理的復雜數學問題,語言模型通常都無法給出正確答案,即便有「思維鏈」技術的加持,往往中間步驟也會出錯。

與文科類的自然語言理解任務不同,數學問題通常只有一個正確答案,在不那么開放的答案范圍下,使得生成準確解的任務對大型語言模型來說更具挑戰性。

并且,在數學問題上,現有的語言模型通常不會對自己的答案提供置信度(confidence),讓用戶無從判斷生成答案的可信度。

為了解決這個問題,微軟研究院提出了MathPrompter技術,可以提高 LLM 在算術問題上的性能,同時增加對預測的依賴。

論文鏈接:https://arxiv.org/abs/2303.05398

MathPrompter 使用 Zero-shot 思維鏈提示技術生成多個代數表達式或 Python 函數,以不同方式解決同一個數學問題,從而提高輸出結果的可信度。

相比其他基于提示的 CoT 方法,MathPrompter還會檢查中間步驟的有效性。

基于175B 參數 GPT,使用MathPrompter方法將MultiArith 數據集的準確率從78.7%提升到了92.5%!

專攻數學的Prompt

近幾年,自然語言處理的發展很大程度上要歸功于大型語言模型(LLMs)在規模上的不斷擴展,其展現出了驚人的zero-shot和few-shot能力,也促成了prompting技術的發展,用戶只需要在prompt中給LLM輸入幾個簡單的樣例即可對新任務進行預測。

prompt對于單步的任務來說可以說相當成功,但在需要多步驟推理的任務中,提示技術的性能仍然不夠。

人類在解決一個復雜問題時,會將其進行分解,并嘗試一步步地解決,「思維鏈」(CoT)提示技術就是將這種直覺擴展到LLMs中,在一系列需要推理的NLP任務中都得到了性能改進。

這篇論文主要研究「用于解決數學推理任務」的Zero-shot-CoT方法,之前的工作已經在MultiArith數據集上得到了顯著的準確率改進,從17.7% 提升到了 78.7%,但仍然存在兩個關鍵的不足之處:

1、雖然模型所遵循的思維鏈改進了結果,但卻沒有檢查思維鏈提示所遵循的每個步驟的有效性;

2、沒有對LLM預測結果提供置信度(confidence)。

MathPrompter

為了在一定程度上解決這些差距,研究人員從「人類解決數學題的方式」中得到啟發,將復雜問題分解為更簡單的多步驟程序,并利用多種方式在每一個步驟中對方法進行驗證。

圖片

由于LLM是生成式模型,要確保生成的答案是準確的,特別是對于數學推理任務,就變得非常棘手。

研究人員觀察學生解決算術問題的過程,總結出了學生為驗證其解決方案而采取的幾個步驟:

遵循已知結果(Compliance with known results),通過將解決方案與已知結果進行比較,可以評估其準確性并進行必要的調整;當問題是一個具有成熟解決方案的標準問題時,這一點尤其有用。

多重驗證 Multi-verification,通過從多個角度切入問題并比較結果,有助于確認解決方案的有效性,確保其既合理又準確。

交叉檢查 Cross-checking,解決問題的過程與最終的答案同樣必要;驗證過程中的中間步驟的正確性可以清楚地了解解決方案背后的思維過程。

計算驗證 Compute verification,利用計算器或電腦進行算術計算可以幫助驗證最終答案的準確性

具體來說,給定一個問題Q,

圖片

 在一家餐廳,每份成人餐的價格是5美元,兒童免費用餐。如果有15個人進來,其中8個是孩子,那么這群人要花多少錢吃飯?

1. 生成代數模板 Generating Algebraic template

首先將問題轉化為代數形式,通過使用鍵值映射將數字項替換為變量,然后得到修改后的問題Qt

圖片

2. 數學提示 Math-prompts

基于上述多重驗證和交叉檢查的思維過程所提供的直覺上,使用兩種不同的方法生成Qt的分析解決方案,即代數方式和Pythonic方式,給LLM提供以下提示,為Qt生成額外的上下文。

圖片

提示可以是「推導出一個代數表達式」或「編寫一個Python函數」

LLM模型在響應提示后可以輸出如下表達式。

圖片

上述生成的分析方案為用戶提供了關于LLM的「中間思維過程」的提示,加入額外的提示可以提高結果的準確性和一致性,反過來會提高MathPrompter生成更精確和有效的解決方案的能力。

3. 計算驗證 Compute verification

使用Qt中輸入變量的多個隨機鍵值映射來評估上一步生成的表達式,使用Python的eval()方法對這些表達式進行評估。

然后比較輸出結果,看是否能在答案中找到一個共識(consensus),也可以提供更高的置信度,即答案是正確且可靠的。

圖片

一旦表達式在輸出上達成一致,就使用輸入Q中的變量值來計算最終的答案。

4. 統計學意義 Statistical significance

為了確保在各種表達式的輸出中達成共識,在實驗中將步驟2和3重復大約5次,并報告觀察到的出現最頻繁的答案值。

在沒有明確共識的情況下,重復步驟2、3、4。

實驗結果

在MultiArith數據集上對MathPrompter進行評估,其中的數學問題專門用來測試機器學習模型進行復雜算術運算和推理的能力,要求應用多種算術運算和邏輯推理才能成功地解決。

圖片

在MultiArith數據集上的準確率結果顯示,MathPrompter的表現優于所有的Zero-shot和Zero-shot-CoT基線,將準確率從78.7% 提升到 92.5%

可以看到,基于175B參數GPT3 DaVinci的MathPrompter模型的性能與540B參數模型以及SOTA的Few-shot-CoT方法相當。

圖片

從上表可以看到,MathPrompter的設計可以彌補諸如「生成的答案有時會有一步之差」的問題,可以通過多次運行模型并報告共識結果來避免。

此外,推理步驟可能過于冗長的問題,可以由Pythonic或Algebraic方法可以解決這個問題,通常需要較少的token

此外,推理步驟可能是正確的,但最終的計算結果卻不正確,MathPrompter通過使用Python的eval()方法函數來解決這個問題。

在大部分情況下,MathPrompter都能生成正確的中間和最終答案,不過也有少數情況,如表中的最后一個問題,代數和Pythonic的輸出都是一致的,但卻有錯誤。

責任編輯:張燕妮 來源: 新智元
相關推薦

2022-04-13 10:31:04

微軟Jigsaw大型語言模型

2019-11-20 10:03:56

AI 數據人工智能

2023-12-13 14:17:10

微軟變色龍框架

2022-05-26 14:04:13

GPT-3機器學習AI

2021-08-17 11:29:13

框架架構開發

2021-10-11 17:27:50

框架計算機開發

2023-12-04 13:51:00

模型數據

2025-09-15 09:05:00

AI數學模型

2025-07-30 09:06:02

2023-09-19 09:20:16

2023-10-14 17:24:49

2023-10-14 13:09:53

谷歌模型

2023-09-25 10:04:37

模型AI

2021-08-10 16:01:18

模型人工智能深度學習

2021-11-01 10:40:15

機器學習人工智能計算機

2023-09-19 14:56:00

模型訓練

2025-09-16 12:49:11

2021-11-08 10:01:04

AI 數據語言模型

2024-08-02 13:14:51

2021-03-23 15:21:00

人工智能機器學習技術
點贊
收藏

51CTO技術棧公眾號

水蜜桃一区二区三区| 91chinesevideo永久地址| 国产一区二区在线观看免费视频| 欧美13一16娇小xxxx| 精油按摩中文字幕久久| 欧美激情精品久久久久| 国产精品无码一区二区三区免费| 欧美精选视频一区二区| 亚洲免费成人av| 美日韩精品免费| 国产又色又爽又黄又免费| 尹人成人综合网| 在线精品高清中文字幕| 亚洲妇女无套内射精| 日韩性xxx| 一区二区三区在线免费| 欧美不卡在线一区二区三区| 99久久久国产精品无码网爆| 国产一区二区高清| www.亚洲人.com| 性欧美成人播放77777| 91成人短视频在线观看| 色综合久久久久| 大荫蒂性生交片| 高清中文字幕一区二区三区| 不卡一二三区首页| 成人伊人精品色xxxx视频| 久久久久久久久久久影院| 你懂的国产精品永久在线| 亚洲偷熟乱区亚洲香蕉av| 妖精视频一区二区| 国产精品1区在线| 91国偷自产一区二区使用方法| 日本大片免费看| 黄色在线播放网站| 亚洲国产电影在线观看| 欧美日韩视频在线一区二区观看视频| 国产高清在线观看视频| 捆绑调教一区二区三区| 国产精品国产三级国产aⅴ浪潮| 日韩免费不卡视频| 国产精品magnet| 麻豆国产精品va在线观看不卡| 蜜桃av免费在线观看| 免费电影一区二区三区| 亚洲精品久久视频| 大尺度在线观看| 中文无码日韩欧| 日韩三级视频在线看| 极品粉嫩美女露脸啪啪| 国产精品成人国产| 欧美吻胸吃奶大尺度电影| 99精品免费在线观看| 亚洲人成在线网站| 香蕉加勒比综合久久| 天天做天天躁天天躁| 欧美日韩色网| 亚洲一卡二卡三卡四卡无卡久久| 国产乱子伦精品视频| 99视频免费在线观看| 一区二区三区在线视频播放 | 久久久久久久久久久久91| 欧亚在线中文字幕免费| 精品日韩视频在线观看| 欧美日韩在线视频一区二区三区| 色是在线视频| 91黄色免费版| 911福利视频| 精品一区二区三区在线观看视频| 日韩一区二区三区四区| 亚洲少妇中文字幕| 欧美一区自拍| 中文字幕国产亚洲| 黄色录像免费观看| 午夜久久tv| 91国产视频在线| 免费视频久久久| 美国毛片一区二区| 91系列在线播放| 亚洲精品国偷拍自产在线观看蜜桃| 成人午夜精品一区二区三区| 国产伦精品一区二区三区视频免费| 日韩一级片免费看| 国产亚洲精品aa午夜观看| 亚洲一区二区三区免费观看| 亚洲七七久久综合桃花剧情介绍| 欧美日韩国产限制| 麻豆一区二区三区视频| 日韩欧美一级| 亚洲九九九在线观看| 国产农村妇女精品一区| 欧美一区精品| 日本欧美一级片| 国产精品久久久久久久久久久久久久久久久久 | 蜜臀久久99精品久久久| 久久精品人人做人人爽人人| 日韩视频在线观看视频| 97人澡人人添人人爽欧美| 亚洲国产精品久久久久婷婷884| 中国丰满人妻videoshd | 欧美手机在线观看| 在线亚洲欧美| 亚洲欧美日韩国产成人精品影院| 欧美福利视频一区| 日韩爱爱小视频| 动漫av一区| 少妇久久久久久| 国产又大又黑又粗免费视频| 看片网站欧美日韩| 韩国成人av| 国产黄网站在线观看| 欧美日韩在线视频观看| 五月天国产视频| 国产免费av一区二区三区| 欧美高清视频在线观看| 中文av免费观看| av中文字幕不卡| 国产精品久久久久久久久电影网| av成人亚洲| 亚洲精品视频免费| 久久人人爽人人爽人人| 久久丁香综合五月国产三级网站| 久久伊人一区二区| 欧美78videosex性欧美| 欧美日韩午夜精品| 一区二区三区四区免费| 国产综合色视频| 国产精品美女在线观看| 欧美 日韩 人妻 高清 中文| 一色桃子久久精品亚洲| 日本成人在线免费视频| 免费看成人人体视频| 九九热最新视频//这里只有精品| 久久久久久久久久一级| 91免费观看视频| 男人和女人啪啪网站| 97一区二区国产好的精华液| 久久综合亚洲社区| 一本色道久久综合亚洲| 欧美国产在线观看| 天天操天天爽天天射| 啄木系列成人av电影| 青青久久av北条麻妃黑人| 五月婷婷丁香网| 五月婷婷激情综合| 久久久久国产精品无码免费看| 欧美午夜一区二区福利视频| 成人9ⅰ免费影视网站| 羞羞的网站在线观看| 日韩欧美第一区| 免费又黄又爽又色的视频| 国产精品99久| 成人午夜视频免费观看| 伊人久久影院| 91国偷自产一区二区三区的观看方式| 狠狠人妻久久久久久综合麻豆| 亚洲一级二级在线| 亚洲国产精品无码久久久久高潮| 亚洲一区图片| 欧美lavv| 欧美电影在线观看网站| 久久视频在线播放| 亚洲伦理在线观看| 性做久久久久久久免费看| 97人妻天天摸天天爽天天| 久久成人精品| 亚洲一区在线免费| 精品视频在线一区| 久久久久久香蕉网| 日韩毛片在线一区二区毛片| 在线免费观看日本欧美| 香蕉成人在线视频| 国产乱码精品1区2区3区| 男人添女人荫蒂免费视频| 久久久精品国产**网站| 国产精品九九九| v天堂福利视频在线观看| 欧美α欧美αv大片| 全部毛片永久免费看| 国产精品视频一二| www日本在线观看| 国产欧美一区二区三区国产幕精品| 奇米影视首页 狠狠色丁香婷婷久久综合| 日本少妇一区| 久久99精品国产99久久6尤物| 深夜福利视频网站| 欧美视频一区在线| 青青草手机视频在线观看| 91影院在线观看| 国产一伦一伦一伦| 亚洲美女网站| 亚洲一区二区三区精品在线观看| jizz18欧美18| 国产精品久久久久久久久久小说 | 国产黄色片av| 日韩欧美亚洲综合| 成人免费毛片东京热| 久久综合色播五月| 日本一区二区三区在线免费观看| 夜夜嗨网站十八久久| 色中文字幕在线观看| 亚洲专区视频| 99视频在线免费观看| 美女网站视频一区| 久久久久久成人| 日本免费在线观看| 亚洲视频综合网| 日本黄色三级视频| 91精品婷婷国产综合久久性色| 五月天激情国产综合婷婷婷| 一区二区三区免费| 国产成人免费在线观看视频| 91在线精品一区二区| 国模大尺度视频| 另类中文字幕网| 无码精品国产一区二区三区免费| 午夜视频一区| 在线视频亚洲自拍| 大片网站久久| 欧美婷婷久久| 女人抽搐喷水高潮国产精品| 亚洲自拍中文字幕| 青草综合视频| 国产精品日日摸夜夜添夜夜av| 蜜臀久久精品| 欧美精品激情在线观看| 4438x成人网全国最大| 在线观看91久久久久久| 欧美日韩影视| 精品亚洲永久免费精品| 凸凹人妻人人澡人人添| 亚洲精品一区二区三区福利 | 亚洲欧美日韩爽爽影院| 天堂在线视频免费观看| 亚洲国产欧美一区二区三区久久| 国产精品一区二区人人爽| 欧美日韩国产123区| 中文字幕人妻丝袜乱一区三区| 91福利小视频| 91视频在线视频| 91精品福利在线| 波多野结衣电车痴汉| 日韩欧中文字幕| 青青青国产在线| 91久久一区二区| 国产99免费视频| 91久久线看在观草草青青| 欧美brazzers| 欧美性大战久久| 国产永久免费视频| 欧美色倩网站大全免费| 亚洲一卡二卡在线观看| 欧美日韩一级黄| 国产美女精品视频国产| 欧美一区二区视频在线观看2020 | 国产又粗又猛又爽又黄视频| 欧美精品色综合| 国内精品久久久久久久久久久| 日韩精品一区二区三区视频播放 | 亚洲熟妇无码另类久久久| 国产欧美午夜| 久草福利视频在线| 精品在线一区二区| 午夜福利三级理论电影| 99国产精品久久| www久久久久久久| 日韩毛片视频在线看| 欧美精品一区二区蜜桃| 婷婷久久综合九色综合绿巨人 | 欧洲精品码一区二区三区免费看| 超碰成人久久| 波多野结衣 作品| 99国产精品久久久久久久成人热| 凹凸国产熟女精品视频| 免费看黄色91| 国产探花一区二区三区| 91亚洲精品久久久蜜桃网站| 成人性生交大片免费看无遮挡aⅴ| 亚洲三级在线免费观看| 国产午夜激情视频| 在线亚洲人成电影网站色www| 国产精品免费无遮挡| 亚洲国产精品99| 91露出在线| 欧美激情小视频| 日韩在线观看不卡| 国产高清自拍一区| 国产麻豆精品久久| 国产91在线亚洲| 日本美女一区二区| 亚洲少妇一区二区三区| 国产精品人人做人人爽人人添| 国产亚洲小视频| 欧美日韩亚洲国产综合| 婷婷五月综合久久中文字幕| 色噜噜狠狠狠综合曰曰曰88av| www555久久| 成人黄色av播放免费| 秋霞蜜臀av久久电影网免费| 午夜在线视频免费观看| 翔田千里一区二区| 又黄又爽又色的视频| 国产亚洲一区二区三区| 精品深夜av无码一区二区老年| 欧美天堂一区二区三区| 天天综合网在线观看| 欧美精品亚州精品| 小明成人免费视频一区| 国内视频一区| 欧美国产91| 最新免费av网址| 国产欧美日韩精品在线| 日本少妇裸体做爰| 日韩午夜中文字幕| 中文字幕日本在线观看| 欧美一区二区大胆人体摄影专业网站| 日韩一区二区三区精品| 一区二区不卡视频| 麻豆久久婷婷| 亚洲精品乱码久久久久久不卡| 亚洲免费观看在线观看| 一二区在线观看| 在线观看日韩欧美| 亚洲深夜视频| 精品欧美国产一区二区三区不卡| 欧美天堂亚洲电影院在线观看| 国产欧美一区二| 国产精品情趣视频| 亚洲av无码乱码国产精品fc2| 日韩第一页在线| 黄视频免费在线看| 国产视频不卡| 99国产精品视频免费观看一公开| 一区二区三区人妻| 亚洲精选一二三| 99久久精品国产色欲| 久久亚洲成人精品| 国产成人免费av一区二区午夜| 伊人久久青草| 国内精品久久久久影院一蜜桃| 日韩一区二区三区四区视频| 欧美人与性动xxxx| 好了av在线| 91久久久一线二线三线品牌| 亚洲色图二区| 国产高潮失禁喷水爽到抽搐 | 国产乱人乱偷精品视频| 久久精品精品电影网| www.久久久.com| 日本高清视频免费在线观看| 国产成人在线免费| 懂色av.com| 亚洲免费一在线| 成人一区视频| 五月天男人天堂| 成人性生交大片免费看视频在线 | 91国产免费看| 91吃瓜网在线观看| 亚洲伊人一本大道中文字幕| 亚洲欧美文学| 大乳护士喂奶hd| 在线精品国精品国产尤物884a| 成人av一区| 99久久精品久久久久久ai换脸| 狠狠入ady亚洲精品| 国产精品揄拍100视频| 欧洲一区在线电影| 国产淫片在线观看| 国产女人水真多18毛片18精品| 国产精品一级| 中国1级黄色片| 欧美不卡一区二区三区四区| 2019中文字幕在线电影免费 | 亚洲图片欧美另类| 一本色道久久加勒比精品| 137大胆人体在线观看| 99国精产品一二二线| 国产伦理一区| 久久久99999| 亚洲第一网站男人都懂| 欧美va在线观看| 国产黄色激情视频| 久久久久久亚洲综合影院红桃| 亚洲天堂免费av| 久久久久久九九九| 欧美日韩中字| 国产女主播在线播放| 一本色道久久综合亚洲aⅴ蜜桃 | 久久午夜夜伦鲁鲁片| 欧美人伦禁忌dvd放荡欲情| 91白丝在线| 在线观看成人av| 91日韩精品一区| 99在线小视频| 国产精品久久久久久av| 亚洲午夜黄色| 国产jizz18女人高潮| 日韩福利视频在线观看| 精品国产一级| 一级在线免费视频|