精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

PromptPG:當強化學習遇見大規模語言模型

人工智能 新聞
PromptPG 方法在回答問題的準確性上超過最優基準(Few-shot CoT GPT-3)5.31%。

數學推理是人類智能的一項核心能力,但對于機器來說,抽象思維和邏輯推理仍然是一個很大的挑戰。大規模預訓練語言模型,如 GPT-3 和 GPT-4,在文本形式的數學推理(如數學應用題)上已經取得了顯著的進展。然而,目前我們還不清楚這些模型能否處理涉及到異構信息(如表格數據)的更復雜的問題。為了填補這一空白,來自 UCLA 和艾倫人工智能研究院(AI2) 的研究人員推出了 Tabular Math Word Problems (TabMWP) ,這是一個包含了 38,431 個開放領域問題的數據集,需要同時在文本和表格數據上進行數學推理得到正確答案。TabMWP 中的每個問題都與一個上下文相關聯,這個上下文包含圖片、文本或結構化格式的表格。

研究人員在 TabMWP 上評估了包括 Few-shot GPT-3 等不同的預訓練模型。正如已有的研究發現,Few-shot GPT-3 很依賴 in-context 示例的選擇,這導致其在隨機選擇示例的情況下性能相當不穩定。這種不穩定在處理像 TabMWP 這樣復雜的推理問題時表現得更加嚴重。為了解決這一問題,作者提出了 PromptPG 方法,這種方法將示例的選擇轉化成強化學習中的 contextual bandit 問題,并且利用 Policy Gradient 訓練一個策略網絡來學習從少量的訓練數據中選擇最優的 in-context 示例。實驗結果表明,他們提出的 PromptPG 方法在回答問題的準確性上超過最優基準(Few-shot CoT GPT-3)5.31%,并且相對于隨機選擇的 in-context examples,他們的方法顯著降低了預測的方差,提升了這類方法的穩定性。

圖片


  • 論文鏈接:https://arxiv.org/abs/2209.14610
  • 代碼鏈接:https://github.com/lupantech/PromptPG
  • 項目主頁:https://promptpg.github.io
  • 數據可視化:https://promptpg.github.io/explore

1、TabMWP 數據集

下面是來自 TabMWP 數據集的兩個例子。其中一個是答案為數值類型的自由文本問題(free-text),另一個是答案為文本類型的多項選擇題(multi-choice)。可以看到,每個問題都提供了一個包含分步推理的解答。要解決 TabMWP 中的問題,系統必須同時具備查表和多步數學推理的能力。舉下圖中的例子來說,要回答 “how much will she spend (if Tracy buys three kinds of breads)”,我們需要先在表格中查找出三種面包對應的價格,再計算購買每種面包的費用,并對它們求和已得到最終的費用。

圖片

如下表的統計所示,TabMWP 數據集包含 38,431 個表格數學問題。其中 74.7% 的問題屬于自由文本問題,25.3% 的問題屬于多選題。TabMWP 共有 28,876 個不同的問題,6,153 個不同的答案和 35,442 個不同的解答,表明其在問題分布方面具有豐富的多樣性。這些問題平均長度為 22.1 個單詞,解答平均長度為 49.5 個單詞,這表明 TabMWP 具有詞匯的豐富性。TabMWP 的一個顯著特點是,每個問題都附帶有一個表格上下文,如果沒有表格,問題將無法解決。TabMWP 總共有 37,644 個不同的表格,表格平均有 5.9 行和 2.2 列,12.9 個單元格,最大可達 54 個單元格。這些統計數據表明,TabMWP 中的表格也具有豐富的多樣性。

圖片

TabMWP 數據集有兩種不同的問題類型以及五種不同的答案類型:

圖片

TabMWP 中的每個問題都有一個表格上下文,它以圖像、半結構化文本和結構化三種格式表示。這為開發不同類型的推理模型提供了可能性。

圖片

相比于已有的數據集,TabMWP 同時需要表格理解和數學推理能力來回答問題。另外,TabMWP 每道題都有詳細的多步推理過程,在數據集大小、表格類型、問題類型和答案類型上有明顯的優勢。據本文所知,TabMWP 是第一個在開放領域表格場景下的數學推理數據集。

圖片

2、PromptPG 方法

考慮到大規模預訓練模型例如 GPT-3 在解決數學應用題方面取得的成功,作者首先使用 Few-shot GPT-3 在 TabMWP 上建立了一個基準。他們從訓練集中隨機選擇一些上下文示例以及測試樣本構成提示(prompt),提示 GPT-3 預測答案。然而,最近的研究表明,這種基于隨機選擇的 few-shot 學習在不同的上下文示例選擇上可能會表現得非常不穩定。在處理類似 TabMWP 這樣的復雜推理問題時,隨機選擇的效果可能會更差,因為其問題涉及到不同類型和格式的表格。

為了解決這個問題,作者提出了一種改進方法:通過 Policy Gradient 進行提示學習,從少量的訓練數據中學習選擇上下文示例,稱為 PromptPG。如圖 2 所示,策略網絡學習從候選池(candidate examples)中找到最佳的 in-context example,其優化目標是在與 GPT-3 環境交互時最大化給定訓練示例(training example)的預測獎勵。選擇示例的策略網絡是一個基于固定參數的 BERT 語言模型和一個參數可學習的單層神經網絡。在完成優化學習后,PromptPG 可以對不同的測試題目,動態地從候選示例中選出不同的最優示例,從而最大化提高 GPT-3 的推理性能。

圖片

以下為 PromptPG 的學習算法。 

圖片

3、實驗與分析

圖片

預訓練與微調?

表 3 對比了 PromptPG 和不同基準在 TabMWP 數據集上的結果。可以看到,TAPEX 由于在表格數據上進行了預訓練,在相似參數量的前提下,其比 UnifiedQA 的表現要更好。對于 TAPEX 和 UnifiedQA 來說,提高模型的參數量都可以提高預測的準確性。此外,在 TabMWP 上進行模型的微調也可以極大地提升預測的準確性。

大規模語言模型?

GPT-3 在沒有任何微調的情況下(Zero-shot GPT-3),可以取得與微調過的 UnifiedQA 以及 TAPEX 模型相近的準確性。如果 Few-shot GPT-3 模型隨機選擇兩個 in-context 示例作為 GPT-3 的提示,其相比 Zero-shot GPT-3 可以進一步提升 0.17%。通過讓 Few-shot GPT-3 在生成最終答案前生成多步的中間步驟(Few-shot-CoT GPT-3),研究人員可以得到最優的基準模型,其準確率達到了 62.92%。

PromptPG?

區別于隨機選擇 in-context 示例,本文提出的 PromptPG 通過 Policy Gradient 訓練一個策略網絡來選擇更合適的 in-context 示例,在 TabMWP 上取得了最高的預測結果(68.23%),其平均預測準確率超過最好基準模型(Few-shot-CoT GPT-3)5.31%。值得注意的是,對于幾乎所有的問題類型、答案類型和問題難度,PromptPG 都展現出了其在預測準確率上的優勢。盡管如此,PromptPG 距離人類 90.22% 的表現則還有很大的提升空間。

消融實驗

圖片

表 4 表明,TabMWP 的所有輸入元素(問題文本、表格信息、選項信息)都對正確回答問題至關重要。只有所有的問題元素作為輸入信息,Zero-shot GPT-3 才取得了其相對最高的平均預測準確率(59.50%)。

不同的示例選擇

圖片

作為對比實驗,研究人員還比較了其他不同示例選擇的方法。如表 5 所示,選擇與測試問題相同的題型或者答案類型可以幫助模型找到更相關的示例,并提高回答的準確性。選擇最復雜的示例則并不能穩定地提高回答準確性。在候選示例中固定選擇兩個最好的示例,可以小幅度提高準確性,并降低方差。選擇語義上最接近測試問題的示例可以達到最接近 PromptPG 方法的準確性。總體來說,PromptPG 全面展現了其在提升預測準確性和降低預測方差上的優勢。

下圖展示了 PromptPG 選擇的示例以及最終的預測結果。可以看到,PromptPG 方法可以選擇與測試題目具有類似的數學能力的示例,從而提高 Few-shot GPT-3 的推理性能。

圖片

預測成功的例子?

以下展示了 PromptPG 對一個自由文本問題的正確回答。這個問題要求對表格中的八個數字分別進行加法和除法計算以得到平均值。

圖片

在如下的例子中,模型被要求理解一個稅收報告,并計算扣稅后的工資。

圖片

以下展示了 PromptPG 對多選題問題的正確預測。給定的表格一共有 9 行和 6 列。模型成功地定位到了表格中的目標單元格,并進行多步推理以預測正確答案。

圖片

在以下的例子中,模型需要比較預算和總成本,以驗證 Ariana 是否有足夠的錢。

圖片

預測失敗的例子?

以下展示了 PromptPG 對自由文本問題的錯誤預測。模型檢索到了錯誤的玫瑰石英價格,從而錯誤計算了三個物品的成本總和。

圖片

在以下的例子中,問題提供了一個抽象的莖葉表。模型無法理解這個特定領域的表格,并且缺乏高級邏輯推理能力從而得到了錯誤的答案。

圖片

以下的例子表明,現有的模型似乎不具有對數字排序的能力。

圖片

在以下的例子中,表格中沒有出現與問題提到的當前時間完全一致的時間,因此模型無法準確定位到下一站的出發時間。

圖片

以下的例子中,模型很難準確完成一長串數字的算術運算。

圖片

4、結論與展望

作者提出了 TabMWP,這是第一個針對表格語境的數學問題求解的大規模數據集。TabMWP 包含了 38,431 個開放領域的問題,其中包括兩種問題類型和五種答案類型,每個問題都標注了多步的解答過程。作者使用了最先進的 QA 和 TableQA 方法,在預訓練和微調設置下對 TabMWP 進行了全面的實驗,以及使用大型預訓練語言模型 GPT-3 進行評估。作者進一步提出了一種全新的強化學習方法 PromptPG,該方法利用 Policy Gradient 學習從訓練數據中選擇最優的實例用于提示用于 GPT-3 模型。實驗結果表明,與隨機選擇相比,PromptPG 的性能明顯優于現有的基線,并且減少了預測中的性能不穩定性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-10-15 19:22:09

Menger機器學習強化學習

2020-11-16 08:54:05

Google 開源技術

2024-12-09 08:45:00

模型AI

2022-07-07 11:00:09

美團模型實踐

2023-08-28 06:52:29

2021-07-22 15:25:14

開源技術 框架

2022-04-18 14:29:57

人工智能強化學習機器人

2022-09-04 14:38:00

世界模型建模IRIS

2017-08-17 09:15:23

強化學習KerasOpenAI

2024-01-26 08:31:49

2025-09-02 04:22:00

KubernetesvLLM語言模型

2017-08-03 16:20:42

深度學習文本摘要遞歸神經網絡

2017-05-04 13:18:18

深度學習知識圖譜

2025-08-01 09:05:00

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2023-01-03 16:54:27

字節跳動深度學習

2024-04-12 08:59:02

強化學習系統人工智能擴散模型
點贊
收藏

51CTO技術棧公眾號

九九在线高清精品视频| 亚洲经典一区二区| 国产精品密蕾丝视频下载| 日韩人体视频一二区| 日韩精品av一区二区三区| 91成品人影院| 999在线观看精品免费不卡网站| 亚洲美女精品久久| av在线网站免费观看| 麻豆mv在线看| 亚洲天堂网中文字| 欧美久久综合性欧美| www.色播.com| 日韩精品午夜视频| 国产综合在线看| 国产又黄又粗的视频| 视频一区中文字幕精品| 欧美日韩加勒比精品一区| 性欧美videosex高清少妇| 亚洲国产精品欧美久久| 美女网站一区二区| 欧美一级黑人aaaaaaa做受| 欧产日产国产v| 成人羞羞视频播放网站| 国产视频精品va久久久久久| 亚洲av无码久久精品色欲| 国产亚洲欧美日韩精品一区二区三区| 偷窥国产亚洲免费视频| 国产精品传媒入口麻豆| 久久精品国产一区| 国产一二三四五区| 国产精品黄网站| 日韩一区二区三区观看| 不卡的av中文字幕| 日韩电影免费观看高清完整版| 亚洲午夜免费电影| 国产又粗又硬又长| 毛片在线看网站| 国产天堂亚洲国产碰碰| 九九九久久久| 深爱五月激情五月| 成人小视频在线| 444亚洲人体| 国产日韩一级片| 精品在线播放免费| 91久久久久久国产精品| 亚洲视频在线观看免费视频| 丝袜亚洲另类欧美| 国产不卡精品视男人的天堂| 青青草免费观看视频| 99人久久精品视频最新地址| 韩国视频理论视频久久| 久久精品视频8| 亚洲承认在线| 国内精品伊人久久| 日本在线视频中文字幕| 国产亚洲在线| 日本三级久久久| 日本黄色中文字幕| 日韩成人免费看| 国产精品久久久久久av福利软件| 亚洲视频 欧美视频| 久久综合婷婷| 国产精品美女呻吟| 国产精品高潮呻吟久久久| 久久精品国产亚洲高清剧情介绍| 国产精品一区二区三区免费视频| 国产情侣呻吟对白高潮| 日本午夜一本久久久综合| 国产精品青青在线观看爽香蕉| 超碰在线97观看| 久久99久久99| 亚洲黄页网在线观看| 91国产美女视频| 国产乡下妇女做爰毛片| 国产精品日本| 国产精品久久久久久亚洲影视| 亚洲一级在线播放| 国产成人综合在线| 久久综合伊人77777麻豆| 大乳在线免费观看| 亚洲欧美日韩在线| 777av视频| 欧洲亚洲两性| 欧美精品v日韩精品v韩国精品v| 久久精品无码一区二区三区毛片| 欧美精品中文| 日韩在线免费观看视频| 久久午夜无码鲁丝片午夜精品| 国产欧美日韩综合一区在线播放| 国产精品久久久久高潮| 亚洲免费视频网| 国产亚洲va综合人人澡精品| 日本中文字幕一级片| 久久人体大尺度| 日韩一区二区在线播放| 最近中文字幕在线mv视频在线| 国产高清久久| 欧美在线性爱视频 | 色综合 综合色| 8x8x成人免费视频| 偷拍视屏一区| 美日韩精品免费观看视频| 黄色片中文字幕| 国产·精品毛片| 亚洲看片网站| 一个人看的www视频在线免费观看| 欧美日韩视频第一区| 日韩精品视频一区二区| 色中色综合网| 国产成人精品在线视频| 日本黄色三级视频| 亚洲欧美一区二区三区国产精品| 情侣黄网站免费看| 国产精品xxxav免费视频| 亚洲男人天堂古典| 日本一区二区欧美| 国产成人在线免费观看| 亚洲成色www久久网站| 成人免费观看在线观看| 欧美一区二区在线免费观看| 精品人伦一区二区| 中文亚洲欧美| 国产98在线|日韩| 日本在线天堂| 欧美亚洲综合在线| 国产免费看av| 在线视频免费在线观看一区二区| 91久久在线视频| av在线1区2区| 在线观看亚洲专区| 国产高清一区二区三区四区| 国产精品亚洲综合久久| 国产一区二区三区四区hd| 18av在线播放| 日韩欧美国产综合一区| 蜜臀av午夜精品久久| 老汉av免费一区二区三区| 日本视频一区二区在线观看| 偷拍视频一区二区三区| 国产丝袜高跟一区| 亚洲天堂视频网站| 91丨九色丨蝌蚪富婆spa| 黄页网站在线观看视频| 精品精品精品| 97超级碰碰人国产在线观看| 亚洲精华国产精华精华液网站| 亚洲精品国产无天堂网2021| а 天堂 在线| 欧美777四色影| 99久久综合狠狠综合久久止| 大片免费在线看视频| 91精品福利在线一区二区三区| 视频国产一区二区| 国产在线播精品第三| 久久综合亚洲精品| 国产精品白浆| 琪琪亚洲精品午夜在线| 国产毛片av在线| 欧美日韩精品是欧美日韩精品| 亚洲av无一区二区三区| 国产精一品亚洲二区在线视频| 在线观看污视频| 国产精品久久久久av蜜臀| 97超碰蝌蚪网人人做人人爽| 免费成人av电影| 欧美日韩在线播放三区| 久久国产波多野结衣| 精品一区免费av| 国产一区二区四区| 亚洲三级性片| 国产欧美日韩专区发布| 色帝国亚洲欧美在线| 亚洲精品久久久久国产| 国产女主播喷水视频在线观看| 国产精品久久久久久久蜜臀| 天堂在线精品视频| 中文亚洲字幕| 吴梦梦av在线| 丁香婷婷成人| 国产精品日日做人人爱| 中文字幕在线观看网站| 亚洲国产中文字幕在线观看| 国产免费a视频| 亚洲精品中文在线观看| 波多野结衣视频播放| 日本vs亚洲vs韩国一区三区 | 91在线视频免费| 91高清视频在线观看| 一区二区三区四区精品| 国内精品久久久久久久久久| 日韩人在线观看| 日日噜噜夜夜狠狠久久波多野| caoporen国产精品视频| gogogo高清免费观看在线视频| 欧美日韩岛国| 亚洲bbw性色大片| 国产suv精品一区| 国产精品久久久久久久久久久不卡 | av在线不卡电影| 国产一伦一伦一伦| 亚洲精品系列| 午夜久久久久久久久久久| 日本国产精品| 2022国产精品| 男人天堂久久| 人妖精品videosex性欧美| 1区2区在线观看| 在线日韩欧美视频| 日韩在线无毛| 精品欧美久久久| 国产理论片在线观看| 色综合天天综合给合国产| 九九热这里有精品视频| 国产精品久久久久久久久果冻传媒| 91丝袜在线观看| 国产精品白丝jk白祙喷水网站| 超碰av在线免费观看| 制服诱惑一区二区| a天堂资源在线观看| 久久久久蜜桃| 亚洲精品久久久久久一区二区| 亚洲理论电影| 国产精品果冻传媒潘| 国产在线不卡一区二区三区| 国产精品中文字幕在线观看| 黑人巨大亚洲一区二区久 | 激情五月五月婷婷| 日韩精品一卡| 神马影院一区二区| 精品欧美久久| 欧美一区1区三区3区公司| 精品福利网址导航| 国产一区二区久久久| 亚洲国产视频二区| 99re视频在线观看| 中文字幕日韩在线| 成人18视频| 一区二区亚洲视频| 成人黄色片视频网站| 免费精品一区二区三区在线观看| 成人乱人伦精品视频在线观看| 国产极品嫩模在线观看91精品| 国产成人精品免费久久久久| 2022成人影院| 国产成人高潮免费观看精品| 欧美男男激情videos| 26uuu另类亚洲欧美日本一| 阿v视频在线| 欧美中文字幕精品| 亚洲私拍视频| 国产成人综合av| 色天使综合视频| 国产精品亚洲自拍| 国产精品视频首页| www日韩av| 欧美jizz19性欧美| 日本成人三级电影网站| 狠狠色狠狠色综合婷婷tag| 日韩性感在线| 亚洲成av人片一区二区密柚| 男人草女人视频| 亚洲成人直播| 成人黄色一区二区| 精品一区二区三区免费观看 | 97av视频在线观看| 日韩电影在线观看一区| 成人日韩在线视频| 国产91丝袜在线播放0| 粉嫩av懂色av蜜臀av分享| 久久噜噜亚洲综合| www.黄色com| 伊人婷婷欧美激情| 免费看毛片网站| 欧美日韩一本到| 精品人妻aV中文字幕乱码色欲| 亚洲成人激情在线| 欧美视频免费一区二区三区| 国产一区二区三区精品久久久| 男人的天堂在线视频免费观看 | 91一区二区在线| 99精品欧美一区二区| 亚洲柠檬福利资源导航| 青青草av在线播放| 欧美日本一区二区三区四区| 亚洲精品97久久中文字幕无码| 日韩毛片中文字幕| 美女羞羞视频在线观看| 91精品91久久久久久| 久久亚洲精品人成综合网| 俄罗斯精品一区二区三区| 国产精品中文字幕亚洲欧美| 自拍另类欧美| 免费日韩精品中文字幕视频在线| 不卡的av中文字幕| 成人动漫av在线| 欧美美女性生活视频| 五月综合激情网| 国产又大又黑又粗| 亚洲精品视频播放| av理论在线观看| 国产成人精品一区二区| 日韩欧美中文字幕一区二区三区 | 国产区在线视频| 欧美大片在线看免费观看| 性高爱久久久久久久久| 国产伦精品一区二区三区照片91 | 国产美女在线一区| 国内久久精品视频| 免费污网站在线观看| 亚洲在线中文字幕| 国产一区二区在线播放视频| 亚洲精品一区中文字幕乱码| 日本片在线观看| 成人国产精品色哟哟| 日韩一级电影| www精品久久| 高清不卡在线观看| 亚洲色偷偷综合亚洲av伊人| 色天天综合久久久久综合片| 亚洲男人第一天堂| 美女少妇精品视频| 亚洲精品一区av| 亚洲综合久久av| 国产系列精品av| 日韩视频在线观看一区二区| 香蕉视频免费在线播放| 国产精品18久久久久久首页狼 | 人妻久久一区二区| 欧美丝袜第三区| wwwxxx在线观看| 国产精品白嫩初高中害羞小美女 | 国产亚洲欧美在线精品| 亚洲国产精品久久久久秋霞蜜臀 | 久久人体视频| 五月婷婷狠狠操| 国产欧美日韩在线观看| 成年人av网站| 亚洲天堂免费视频| 亚洲天堂一区二区| 日本一区视频在线观看免费| 日欧美一区二区| 娇妻被老王脔到高潮失禁视频| 一本大道久久a久久综合 | 北条麻妃一区二区三区中文字幕 | 污污网站在线看| 亚洲a在线播放| 午夜久久一区| 可以看的av网址| 亚洲影视在线播放| 国产自产一区二区| 午夜精品久久久久久久男人的天堂 | 黄大色黄女片18免费| 欧美丝袜自拍制服另类| 天堂地址在线www| 亚洲一区久久久| 影音先锋亚洲电影| 玖草视频在线观看| 在线看一区二区| 日本在线免费| 99在线视频首页| 亚洲乱码久久| 精品成人无码一区二区三区| 欧美日韩一区二区三区四区| 黄色在线免费网站| 国产福利久久精品| 国产农村妇女精品一二区| 特级西西www444人体聚色| 欧美日韩中文国产| 亚洲91av| 精品麻豆av| 青娱乐精品视频| 久久久久久久久久久久久女过产乱| 精品国内二区三区| 欧美自拍电影| 色一情一乱一乱一区91| 成人高清免费观看| 黄色网址中文字幕| 欧美成在线观看| 亚洲亚洲免费| 小早川怜子一区二区三区| 亚洲国产精品久久久久秋霞影院| 免费黄色在线视频网站| 91久色国产| 久久不射中文字幕| www.色小姐com| 亚洲毛茸茸少妇高潮呻吟| av在线国产精品| 久久无码高潮喷水| 亚洲乱码国产乱码精品精98午夜 | 欧美激情国产高清| 久草精品在线| 国产亚洲色婷婷久久| 色网综合在线观看| 日本三级韩国三级欧美三级| 欧洲在线视频一区| 国产91高潮流白浆在线麻豆| 黄色片视频免费| 欧美激情啊啊啊| 97精品国产福利一区二区三区|