精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

消滅「幻覺」!谷歌全新ASPIRE方法讓LLM給自己打分,效果碾壓10x體量模型

人工智能 新聞
谷歌和威斯康星麥迪遜大學的研究人員推出了一個讓LLM給自己輸出打分的選擇性預測系統,通過軟提示微調和自評估學習,取得了比10倍規模大的模型還要好的成績,為開發下一代可靠的LLM提供了一個非常好的方向。

大模型的「幻覺」問題馬上要有解了?

威斯康星麥迪遜大學和谷歌的研究人員最近開發了一個名為ASPIRE的系統,可以讓大模型對自己的輸出給出評分。

如果用戶看到模型的生成的結果評分不高,就能意識到這個回復可能是幻覺。

如果系統可以進一步篩選評分的結果進行輸出,比如如果評分過低,大模型就可能生成「我沒法回答這個問」,從而有望最大限度的改善幻覺問題。

論文地址:https://aclanthology.org/2023.findings-emnlp.345.pdf

ASPIRE能讓LLM輸出答案以及答案的置信度得分。

研究人員的實驗結果表明,ASPIRE在各種QA數據集(例如 CoQA 基準)上顯著優于傳統的選擇性預測方法。

讓LLM不僅要回答問題,還要評估這些答案 。

選擇性預測的基準測試上,研究人員通過ASPIRE系統取得了超過10倍規模的模型的成績。

就像讓學生在課本后面驗證他們自己的答案,雖然聽起來有點不靠譜,但是細細一想,每個人在做出一道題目之后,確實會對答案的滿意程度會有一個評分。

這就是ASPIRE的本質,它涉及三個階段:

(1) 針對特定任務的調優,

(2) 答案采樣,

(3) 自我評估學習。

在研究人員看來,ASPIRE不僅僅是另一個框架,它代表著一個全面提升LLM可靠性,降低幻覺的美好未來。

如果LLM可以成為決策過程中值得信賴的合作伙伴。

只要通過不斷優化選擇性預測的能力,人類距離充分發揮大模型的潛力就又近了一步。

研究人員希望能憑借ASPIRE,開啟下一代LLM的進化,從而能創建更可靠和更具有自我意識的人工智能。

ASPIRE 的機制

針對特定任務的微調

ASPIRE執行特定于任務的微調以訓練適應性參數圖片,同時凍結LLM。

給定生成任務的訓練數據集,它會微調預訓練的LLM以提高其預測性能。

為此,可以采用參數高效的微調技術(例如,軟提示詞微調和LoRA)來微調任務上的預訓練LLM,因為它們可以有效地通過少量目標獲得強泛化任務數據。

具體來說,LLM參數(θ)被凍結,并添加自適應參數圖片進行微調。

僅更新 θ (p) 以最小化標準 LLM 訓練損失(例如交叉熵)。

這種微調可以提高選擇性預測性能,因為它不僅提高了預測精度,而且還提高了正確輸出序列的可能性。

答案采樣

在針對特定任務進行調優后,ASPIRE使用LLM和學習到的圖片為每個訓練問題生成不同的答案,并創建用于自評估學習的數據集。

研究人員的目標是生成具有高可能性的輸出序列。他們使用波束搜索(Beam Search)作為解碼算法來生成高似然輸出序列,并使用Rouge-L度量來確定生成的輸出序列是否正確。

自評估學習

在對每個查詢的高似然輸出進行采樣后,ASPIRE添加自適應參數圖片,并且僅微調圖片來學習自評估。

由于輸出序列的生成僅取決于 θ 和圖片,因此凍結 θ 和學習到的圖片可以避免在學習自評估時改變LLM的預測行為-評估。

研究人員優化了圖片,使得改編后的LLM可以自己區分正確和錯誤的答案。

在這個框架中,可以使用任何參數有效的微調方法來訓練圖片圖片

在這項工作中,研究人員使用軟提示微調,這是一種簡單而有效的機制,用于學習「軟提示」來調節凍結的語言模型,從而比傳統的離散文本提示更有效地執行特定的下游任務。

這種方法背后的核心在于認識到,如果能夠開發出有效激發自我評價的提示,那么應該可以通過結合有針對性的訓練目標的軟提示微調來發現這些提示。

在訓練圖片圖片后,研究人員通過波束搜索解碼獲得查詢的預測(beam search decoding)。

然后,研究人員定義一個選擇分數,將生成答案的可能性與學習到的自我評估分數(即,預測對于查詢正確的可能性)結合起來,以做出選擇性預測。

結果

為了證明ASPIRE的效果,研究人員使用各種開放式預訓練Transformer (OPT)模型在三個問答數據集(CoQA、TriviaQA和SQuAD)上對其進行評估。

通過使用軟提示調整訓練圖片研究人員觀察到LLM的準確性大幅提高。

例如,與使用CoQA和SQuAD數據集的較大預訓練OPT-30B模型相比,采用ASPIRE的OPT-2.7B模型表現出更好的性能。

這些結果表明,通過適當的調整,較小的LLM在某些情況下可能有能力匹配或可能超過較大模型的準確性。

圖片

當深入研究固定模型預測的選擇分數計算時,ASPIRE獲得了比所有數據集的基線方法更高的AUROC分數(隨機選擇的正確輸出序列比隨機選擇的不正確輸出序列具有更高選擇分數的概率)。

例如,在CoQA基準上,與基線相比,ASPIRE將AUROC從51.3%提高到80.3%。

TriviaQA數據集評估中出現了一個有趣的模式。

雖然預訓練的OPT-30B模型表現出更高的基線精度,但當應用傳統的自我評估方法(Self-eval和P(True))時,其選擇性預測的性能并沒有顯著提高。

相比之下,小得多的OPT-2.7B模型在使用ASPIRE進行增強后,在這方面表現優于其他模型。

這種差異體現了一個重要的問題:利用傳統自我評估技術的較大LLM在選擇性預測方面可能不如較小的ASPIRE增強模型有效。

圖片

研究人員與ASPIRE的實驗之旅強調了LLM格局的關鍵轉變:語言模型的容量并不是其性能的全部和最終目的。

相反,可以通過策略調整來大幅提高模型的有效性,即使在較小的模型中也可以進行更精確、更自信的預測。

因此,ASPIRE證明了LLM的潛力,它可以明智地確定自己答案的確定性,并在選擇性預測任務中顯著地超越地超越其他10倍體量的模型。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-02-02 17:04:35

UCLALLMGPT-4

2023-12-20 14:54:29

谷歌Gen-2視頻

2020-02-24 23:11:56

微軟Windows 10Windows 10X

2020-12-23 10:53:24

Windows 10X操作系統RTM版

2021-03-04 10:19:43

Windows 10Windows微軟

2019-11-04 10:25:17

WindowsWindows 10操作系統

2021-01-15 08:41:45

Windows 10X操作系統截圖

2020-12-23 22:44:48

Windows 10Windows操作系統

2025-01-13 12:12:19

2020-12-04 19:51:17

微軟ARMWindows 10X

2020-02-25 07:30:28

微軟Windows 10Windows

2020-04-03 19:38:18

微軟Windows 10XWindows 10

2024-12-05 13:50:33

Cursor人工智能代碼

2021-01-31 17:34:01

Windows 10Windows微軟

2021-05-19 07:00:59

Windows10操作系統微軟

2019-10-15 13:50:26

Windows 10圖標Windows 10X

2024-12-31 08:03:12

2019-03-29 08:13:20

程序員編程互聯網

2021-01-24 08:00:35

Lumia 950 XWindows 10XWindows 10

2020-10-09 14:57:37

Windows 10Windows微軟
點贊
收藏

51CTO技術棧公眾號

久久爱一区二区| 17c丨国产丨精品视频| 波多野结衣视频观看| 欧美呦呦网站| 欧美一区二区三区四区五区| 国产在线拍揄自揄拍无码| 亚洲乱熟女一区二区| 老司机午夜精品视频在线观看| 亚洲性生活视频在线观看| 在线观看av免费观看| 超碰在线cao| 91免费视频网| 成人啪啪免费看| 日本少妇激情舌吻| 99成人在线视频| 欧美精品一区视频| 午夜免费看毛片| 大菠萝精品导航| 成人免费一区二区三区在线观看| 国产伦精品一区二区三区免| 一区二区视频网站| 国产日韩视频| 欧美日韩国产成人在线| 国产探花视频在线播放| 99ri日韩精品视频| 欧美日韩国产美女| 欧美成人一区二区在线观看| 91网在线看| 日本一区二区视频在线| 国产九色精品| 国产精品视频无码| 久久国产精品毛片| 久久久久日韩精品久久久男男| 亚洲av无码一区二区三区人| 成人av地址| 777欧美精品| 国产一线二线三线在线观看| 国产美女高潮在线观看| 悠悠色在线精品| 综合久久国产| 超碰免费在线| 久久这里只有精品6| 国产伦视频一区二区三区| 97国产成人无码精品久久久| 日本成人在线一区| 国产97在线|日韩| 久久久久久久极品| 亚洲激情影院| 久久久噜噜噜久久久| 久久精品女人毛片国产| 欧美日本在线| 欧美刺激性大交免费视频| 成人三级视频在线观看| 水蜜桃久久夜色精品一区| 国产一区二区三区在线视频| 少妇大叫太粗太大爽一区二区| a级日韩大片| 欧美一区二区不卡视频| 色婷婷综合在线观看| 99精品视频在线免费播放| 欧美高清你懂得| 日本免费色视频| 婷婷久久综合九色综合99蜜桃| 欧美亚洲一区三区| 五月婷婷六月丁香激情| 日本欧美在线| 91精品久久久久久久久99蜜臂| 在线观看免费av网址| 91精品福利观看| 91精品久久久久久久91蜜桃| 麻豆精品国产传媒| 福利电影一区| 亚洲另类图片色| 亚洲综合色一区| 俺要去色综合狠狠| 日韩一区在线视频| 69xx绿帽三人行| 激情成人亚洲| 欧美在线视频一区| 黄色大全在线观看| 国内精品不卡在线| 国产久一道中文一区| 欧美日韩国产综合视频| 国产精品午夜春色av| 国产免费色视频| 午夜激情在线| 欧美日韩激情视频| youjizzxxxx18| 精品视频成人| 日韩精品极品在线观看播放免费视频 | 三年中文在线观看免费大全中国| 激情久久免费视频| 日韩va亚洲va欧洲va国产| 天天干天天舔天天操| 亚洲男女av一区二区| 久久久噜噜噜久久中文字免| 国产字幕在线观看| 国产精品一卡二卡在线观看| 久久人人九九| 黄色大片在线播放| 色综合久久久久久久久| 伊人精品视频在线观看| 欧美重口另类| 爱福利视频一区| 亚洲一区 视频| 久热成人在线视频| 好吊色欧美一区二区三区 | 精品无码一区二区三区爱欲| 成人黄色免费短视频| 日韩欧美在线不卡| 少妇无套高潮一二三区| 欧美日韩亚洲一区| 国产日韩在线观看av| 手机av在线免费观看| 亚洲欧美一区二区在线观看| 男人操女人免费软件| 成人51免费| 亚洲欧洲中文天堂| 国产一级在线播放| 精品午夜久久福利影院| 欧美精品国产精品久久久| 在线观看a级片| 欧美三级日韩三级| 人妻无码一区二区三区| 精品1区2区3区4区| 91九色国产视频| 大地资源中文在线观看免费版| 亚洲成年人影院| 伊人色在线观看| 国产在线观看91一区二区三区| 欧美激情亚洲激情| 国产一区二区在线视频观看| 久久精品综合网| 国产精品12345| 久久国产精品美女| zzijzzij亚洲日本成熟少妇| 中文字幕+乱码+中文乱码91| 2021久久国产精品不只是精品| 超碰10000| 成人污版视频| 日韩亚洲欧美中文高清在线| 亚洲天堂男人av| 99热精品一区二区| 免费看黄在线看| jizz性欧美23| 欧美韩国理论所午夜片917电影| 国产精品九九九九| 国产精品久久久久久一区二区三区| 久久国产成人精品国产成人亚洲| 老司机精品视频在线播放| 欧美激情免费视频| 黄色小视频免费在线观看| 亚洲精品国产视频| 国产chinesehd精品露脸| 欧美在线精品一区| 999日本视频| 1024在线播放| 精品88久久久久88久久久| 美女视频黄免费| 成人一级片网址| av女优在线播放| 欧美大奶一区二区| 2019亚洲男人天堂| 精品无人乱码| 欧美三级在线播放| 一级性生活免费视频| 国产精品一区专区| 加勒比成人在线| 国产精品久久久网站| 51久久精品夜色国产麻豆| 麻豆av电影在线观看| 欧美视频一区二| 91 在线视频| 国产老妇另类xxxxx| 欧美黄色免费网址| 欧美wwwwww| 国产成人精品免费久久久久| h视频网站在线观看| 7777精品伊人久久久大香线蕉超级流畅| av黄色免费在线观看| 成人中文字幕合集| 久久久精品在线视频| 久久伦理在线| 国产91一区二区三区| 超级碰碰久久| www.日韩不卡电影av| www.热久久| 一本一本大道香蕉久在线精品 | 久久久久久一区二区三区| 三级在线播放| 欧美日韩另类国产亚洲欧美一级| 18岁成人毛片| 久久免费视频一区| 手机在线视频一区| 91tv国产成人福利| 男人的天堂亚洲在线| 偷拍视频一区二区| 中文字幕av一区二区三区四区| 国内精品小视频| 国产精品一级伦理| 日韩美女天天操| 国产女主播喷水视频在线观看 | 僵尸再翻生在线观看免费国语| 国产亚洲欧美日韩美女| 超碰福利在线观看| 91久久精品午夜一区二区| 欧美亚洲日本在线| 亚洲国产精品黑人久久久| 国产精品一区二区人妻喷水| 久久国产精品一区二区| 秋霞无码一区二区| 香港欧美日韩三级黄色一级电影网站| 九色视频成人porny| 国产日韩欧美中文在线| 国产精品18久久久久久首页狼| 亚洲性图自拍| 神马久久久久久| 深夜福利在线看| 8x8x8国产精品| 中文字幕av无码一区二区三区| 五月天婷婷综合| 青青草原在线免费观看| 国产精品福利在线播放| 在线观看国产精品一区| 91天堂素人约啪| 无码人妻精品一区二区三| 国产精品一区二区在线播放 | 日韩精品在线影院| 国产视频在线免费观看| 欧美视频一二三区| 日本久久综合网| 欧美日韩国产在线播放| 日本一区二区不卡在线| 亚洲精品高清在线| jizzjizzjizz国产| 国产日产欧产精品推荐色| 亚洲av成人无码一二三在线观看| 国产一区激情在线| 国产精品入口免费软件| 亚洲欧美日韩视频二区| 日本十八禁视频无遮挡| 亚洲午夜极品| 日本免费a视频| 欧美特黄一级| youjizz.com在线观看| 欧美日本在线| 国产精品igao激情视频 | 中文字幕精品一区二区精品| 欧美高清成人| 亚洲女成人图区| 欧美女同网站| 亚洲视频在线观看网站| 韩国福利在线| 在线观看国产精品91| 福利视频在线播放| 中文字幕视频一区二区在线有码 | 国产精区一区二区| 成人夜晚看av| 国产一区二区在线观| 亚洲一区二区三| 日韩在线亚洲| 操人视频欧美| 久久久久观看| 免费成人在线观看av| 国产一区二区区别| 午夜老司机精品| 国产精品国产三级国产在线观看| 国产奶头好大揉着好爽视频| 欧美日韩久久| 精品久久一二三| 欧美专区一区二区三区| 男人搞女人网站| 精品一区二区三区视频在线观看| 激情久久综合网| 国产91精品一区二区| 91精品啪在线观看国产| 久久综合久久综合亚洲| 在线免费看视频| 一区二区三区四区视频精品免费 | 色开心亚洲综合| 欧美精品免费在线观看| sm捆绑调教国产免费网站在线观看| 欧美一区第一页| 国产精品.xx视频.xxtv| 91免费版黄色| 久久99免费视频| 五月天色婷婷综合| 999亚洲国产精| 我看黄色一级片| 国产a精品视频| 久久无码人妻精品一区二区三区| 欧美国产一区二区在线观看| 久久久久久久久久网站| 色综合久久综合中文综合网| ,一级淫片a看免费| 日韩av一区二区在线观看| av网站在线免费播放| 欧美激情videos| 日韩不卡视频在线观看| 不卡视频一区| 四虎成人av| 久久成人免费观看| 国产一区二区美女| 国产男男chinese网站| 亚洲男同性视频| 神马久久久久久久| 精品少妇一区二区| 在线免费看黄网站| 欧美一级在线播放| 在线精品自拍| 亚洲视频欧美在线| 午夜亚洲福利在线老司机| 小日子的在线观看免费第8集| 久久久影视传媒| 国产在线视频二区| 欧美丰满高潮xxxx喷水动漫| 欧美日韩国产亚洲沙发| 久久免费视频这里只有精品| 国产亚洲精品精品国产亚洲综合| 精品国产一区二区三| 亚洲一区色图| 成人免费在线观看视频网站| 91亚洲国产成人精品一区二三 | 国产精品免费在线免费 | gay欧美网站| 成人一区二区在线| 亚洲91视频| 亚洲成人福利在线| 久久精品人人做人人综合| 国产欧美日韩另类| 欧美变态tickling挠脚心| 免费成人黄色| 国产精品久久久av| 国产欧美日韩精品一区二区三区 | 日韩经典中文字幕一区| 精品人妻一区二区三区日产| 一区二区三区在线视频免费| 91tv国产成人福利| 北条麻妃一区二区三区中文字幕| 国产精品国产精品国产专区| 国产 欧美在线| 青青青手机在线视频| 色妹子一区二区| 欧美孕妇性xxxⅹ精品hd| 91av视频在线| 欧美日韩导航| 国产 福利 在线| 91视频免费看| 特级做a爱片免费69| 亚洲精品色婷婷福利天堂| 在线观看特色大片免费视频| 精品午夜一区二区三区| 亚洲专区在线| 欧洲女同同性吃奶| 91成人国产精品| 成人在线观看黄色| 国产免费一区视频观看免费 | 福利网在线观看| 黄网站免费久久| 波多野结衣家庭教师| 欧美tickling网站挠脚心| 久久久123| 精品国产乱码久久久久| 六月丁香综合| 99国产精品免费| 欧美老女人在线| 在线观看中文字幕的网站| 超碰97网站| 日韩视频免费| 欧美特级黄色录像| 欧美日韩午夜在线视频| 中文字幕在线播放网址| 粉嫩av免费一区二区三区| 99国产精品视频免费观看一公开 | 中文字幕欧美国产| 国产又黄又大又爽| 欧美国产第一页| 青青操综合网| 少妇一级淫免费放| 亚洲欧美二区三区| 天天射天天操天天干| 国产精品jizz在线观看麻豆| 久久亚洲国产| 女性生殖扒开酷刑vk| 四虎国产精品成人免费影视| 99在线热播| 亚洲综合社区| 午夜激情视频在线播放| 亚洲第一页在线| 电影亚洲一区| 日本天堂免费a| 久久久不卡网国产精品二区| 国产精品欧美久久久久天天影视| 欧美激情视频网站| 国产探花在线精品| 能看毛片的网站| 日韩欧美高清视频| а√资源新版在线天堂| 麻豆av一区二区三区久久| 精品一区二区三区在线播放视频 |