精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM準確率飆升27%!谷歌DeepMind提出全新「后退一步」提示技術

人工智能 新聞
谷歌DeepMind全新提示技術「Step-Back Prompting」,讓LLM性能拉滿!

前段時間,谷歌DeepMind提出了一種全新的「Step-Back Prompting」方法,直接讓prompt技術變得腦洞大開。

簡單來說,就是讓大語言模型自己把問題抽象化,得到一個更高維度的概念或者原理,再把抽象出來的知識當作工具,推理并得出問題的答案。

論文地址:https://arxiv.org/abs/2310.06117

結果也是非常不錯的,在他們用PaLM-2L模型做了實驗,證明這種新型的Prompt技巧對某些任務和問題的處理表現極佳。

比方說,MMLU物理和化學方面的性能提高了7%,TimeQA提高了27%,MuSiQue則提高了7%。

其中MMLU是大規模多任務語言理解測試數據集,TimeOA是時間敏感問題測試數據集,MusiQue則是多跳問答數據集,包含25000個2至4跳的問題。

其中,多跳問題指的是,需要使用多個三元組所形成的多跳推理路徑才能夠回答的問題。

下面,讓我們來看看這項技術是如何實現的。

后退!

看完開頭的介紹,可能讀者朋友還沒太理解。什么叫讓LLM自己把問題抽象化,得到一個更高維度的概念或者原理呢。

我們拿一個具體的實例來講。

比方說,假如用戶想問的問題和物理學中的「力」相關,那么LLM在回答此類問題時,就可以后退到有關力的基礎定義和原理的層面,作為進一步推理出答案的根據。

基于這個思路,用戶在一開始輸入prompt的時候,大概就是這樣:

你現在是世界知識的專家,擅長用后退的提問策略,一步步仔細思考并回答問題。

后退提問是一種思考策略,為的是從一個更宏觀、更基礎的角度去理解和分析一個特定問題或情境。從而更好地回答原始問題。

當然,上面舉的那個物理學的例子只體現了一種情況。有些問題下,后退策略可能會讓LLM嘗試識別問題的范圍和上下文。有的問題后退的多一點,有的少一些。

論文

首先,研究人員指出,自然語言處理(NLP)領域因為有了基于Transformer的LLM而迎來了一場突破性的變革。

模型規模的擴大和預訓練語料庫的增加,帶來了模型能力和采樣效率的顯著提高,同時也帶來了多步推理和指令遵循等新興能力。

上圖顯示了后退推理的強大性能,本篇論文中所提出的「抽象-推理」法,在科學、技術、工程與數學和多跳推理等需要復雜推理的各種高難度任務中取得了重大改進。

有些任務非常具有挑戰性,一開始,PaLM-2L和GPT-4在TimeQA和MuSiQue上的準確率僅為40%。而在應用了后退推理以后,PaLM-2L的性能全線提高。在MMLU物理和化學任務中分別提高了7%和11%,在TimeQA任務中提高了27%,在MuSiQue任務中提高了7%。

不僅如此,研究人員還進行了錯誤分析,他們發現大部分應用后退推理時出現的錯誤,都是由于LLMs推理能力的內在局限性造成的,與新的prompt技術無關。

而抽象能力又是LLMs比較容易學會的,所以這為后退推理的進一步發展指明了方向。。

雖說確實取得了不小進步,但復雜的多步驟推理還是很有挑戰性的。即使對最先進的LLMs來說也是如此。

論文表明,具有逐步驗證功能的過程監督是提高中間推理步驟正確性的一種有效補救方法。

他們引入了思維鏈(Chain-of-Thought)提示等技術,以產生一系列連貫的中間推理步驟,從而提高了遵循正確解碼路徑的成功率。

而談到這種promp技術的起源時,研究者指出,人類在面對具有挑戰性的任務時,往往會退一步進行抽象,從而得出高層次的概念和原則來指導推理過程,受此啟發,研究人員才提出了后退的prompt技術,將推理建立在抽象概念的基礎上,從而降低在中間推理步驟中出錯的幾率。

上圖的上半部分中,以MMLU的高中物理為例,通過后退抽象,LLM得到理想氣體定律的第一條原理。

而在下半部分中,是來自TimeQA的示例,教育史這一高層次概念是依照這種策略,LLM抽象出來的結果。

從整張圖的左邊我們可以看到,PaLM-2L未能成功回答原始問題。思維鏈提示在中間推理步驟中,LLM出現了錯誤(紅色高亮部分)。

而右邊,應用了后退prompt技術的PaLM-2L則成功回答了問題。

在眾多認知技能中,抽象思考對于人類處理大量信息并推導出一般規則和原理的能力來說無處不在。

隨便舉幾個例子,開普勒將成千上萬的測量結果凝練成開普勒行星運動三定律,精確地描述了行星圍繞太陽的軌道。

又或者,在關鍵決策制定中,人類也發現抽象是有幫助的,因為它提供了一個更廣闊的環境視角。

而LLM是如何通過抽象和推理兩步法來處理涉及許多低級細節的復雜任務,則是本篇論文的重點。

第一步就是教會LLMs退一步這個思路,讓它們從具體實例中推導出高級、抽象的概念,如某領域內的基礎概念和第一原理。

第二步則是利用推理能力,將解決方案建立在高級概念和第一原理的基礎上。

研究人員在LLM上使用了少量的示例演示來執行后退推理這一技術。他們在一系列涉及特定領域推理、需要事實知識的知識密集型問題解答、多跳常識推理的任務中進行了實驗。

結果表明,PaLM-2L的性能有了明顯提高(高達27%),這證明了后退推理在處理復雜任務方面的性能十分顯著。

在實驗環節,研究人員對以下不同種類的任務進行了實驗:

(1)STEM

(2)知識QA

(3)多跳推理

研究人員評估了在STEM任務中的應用,以衡量新方法在高度專業化領域中的推理效果。(本文中僅以此類問題進行講解)

顯然,在MMLU基準中的問題,需要LLM進行更深層次的推理。此外,它們還要求理解和應用公式,而這些公式往往是物理和化學原理和概念。

在這種情況下,研究人員首先要教會模型以概念和第一原理的形式進行抽象,如牛頓第一運動定律、多普勒效應和吉布斯自由能等。這里隱含的退一步問題是「解決這項任務所涉及的物理或化學原理和概念是什么?」

團隊提供了示范,教導模型從自身知識中背誦解決任務的相關原理。

上表中就是應用了后退推理技術的模型性能,應用了新技術的LLM在STEM任務中表現出色,達到了超越GPT-4的最先進水平。

上表是針對少數幾個樣本的示例,展示了樣本數量變化時的穩健性能。

首先,從上圖中我們可以看出,后退推理對用作示范的少量示例具有很強的魯棒性。

除了一個示例之外,增加更多的示例結果也還會是這樣。

這表明,檢索相關原理和概念的任務相對來說比較容易學習,一個示范例子就足夠了。

當然,在實驗過程中,還是會出現一些問題。

其中除原則錯誤外,所有論文中出現的五類錯誤都發生在LLM的推理步驟中,而原則錯誤則表明抽象步驟的失敗。

如下圖右側所示,原則錯誤實際上只占模型錯誤的一小部分,90%以上的錯誤發生在推理步驟。在推理過程中的四種錯誤類型中,推理錯誤和數學錯誤是主要的失誤所在地。

這與消融研究中的發現相吻合,即只需要很少的示例就能教會LLM如何進行抽象。推理步驟仍然是后退推理能否很好地完成MMLU等需要復雜推理的任務的瓶頸。

特別是對于MMLU物理來說,更是如此,推理和數學技能是成功解決問題的關鍵。意思就是說,哪怕LLM正確地檢索了第一原理,也還是得通過典型的多步驟推理過程得出正確的最終答案,也就是還需要LLM有深入的推理和數學能力。

之后,研究人員在TimeQA的測試集上對模型進行了評估。

如下圖所示,GPT-4和PaLM-2L的基線模型分別達到了45.6%和41.5%,凸顯了任務的難度。

在基線模型上應用CoT或TDB零次(和一次),prompt沒有任何改進。

相比之下,通過常規檢索增強(RAG)對基線模型進行增強后,準確率提高到了57.4%,凸顯了任務的事實密集性。

Step-Back + RAG的結果顯示了后退推理中,LLM回到高級概念這一步是很有效的,這會讓LLM的檢索環節更為可靠,我們可以看到,TimeQA的準確率達到了驚人的68.7%。

接下來,研究人員又將TimeQA分成了原始數據集中提供的簡單和困難兩個難度級別。

不出意外的是,LLM在困難這個級別上的表現都較差。雖然RAG可以將簡單級的準確率從42.6%提高到67.8%,但對困難級準確率的提高幅度要小得多,數據顯示僅從40.4%增加到了46.8%。

而這也正是后退推理的prompt技術的真正優勢所在,它能檢索到高層次概念的相關事實,為最終推理奠定基礎。

后退推理再加RAG,就能進一步將準確率提高到62.3%,超過了GPT-4的42.6%。

當然,在TimeQA類問題上,這項prompt技術還是存在一些問題的。

下圖就顯示了在這部分實驗中LLM的準確性,右側則是錯誤發生的概率。

責任編輯:張燕妮 來源: 新智元
相關推薦

2017-09-28 09:40:36

圖像分類準確率

2012-09-06 13:12:41

架構師ArchSummit

2015-10-27 13:36:52

2023-08-11 14:18:52

谷歌研究

2023-09-06 06:42:13

銳龍筆記本頻率

2024-08-02 13:14:51

2024-01-29 12:49:00

AI模型

2024-07-05 15:06:00

2021-10-11 17:27:50

框架計算機開發

2018-11-14 10:01:30

谷歌開源機器學習

2023-09-10 10:43:11

AI模型

2024-03-01 13:31:21

2023-11-28 13:37:43

語言模型LLM

2025-02-10 13:30:00

語言模型谷歌

2024-11-18 09:50:00

模型訓練

2019-01-03 09:04:04

谷歌系統機器

2023-10-14 17:24:49

2025-03-11 08:50:00

2023-01-28 09:17:44

數字化轉型

2025-05-29 08:19:49

點贊
收藏

51CTO技術棧公眾號

亚洲www在线观看| 日韩一区二区三区国产| 国产v亚洲v天堂无码久久久| 国产在线视频你懂得| 久久国内精品自在自线400部| 久久精品视频中文字幕| 欧美极品jizzhd欧美仙踪林| 欧美黑人疯狂性受xxxxx野外| 成人免费在线观看入口| 精品国产乱码久久久久| 在线免费观看中文字幕| 亚洲高清毛片| 日韩少妇与小伙激情| 妖精视频一区二区| av在线成人| 一本到三区不卡视频| 警花观音坐莲激情销魂小说| 四虎影视在线播放| 国产一区二区三区免费播放 | 51精品国产人成在线观看| 日韩欧美a级片| 亚洲成人最新网站| 亚洲人在线观看| 第一页在线视频| 成人午夜在线| 色婷婷久久一区二区三区麻豆| 精品国产三级a∨在线| 国产系列在线观看| 99久久精品免费观看| 亚洲www视频| 在线免费观看视频网站| 三级不卡在线观看| 91av在线免费观看视频| 久久国产精品波多野结衣| 大色综合视频网站在线播放| 亚洲精品国精品久久99热一| 国产免费无码一区二区| 成人在线精品| 欧美日韩一区三区| 任你操这里只有精品| av伦理在线| 亚洲国产精品一区二区www在线| 国产又粗又爽又黄的视频| 在线免费看av| 国产精品女人毛片| 一区二区不卡在线观看| 九九九伊在人线综合| 久久久久久久网| 精品在线视频一区二区三区| 黑人乱码一区二区三区av| 国产精品一区二区你懂的| 91色精品视频在线| 国产视频在线观看免费| 国产精品18久久久久久vr| 91精品在线播放| 国产精品综合在线| 国精产品一区一区三区mba视频| 国产精品色视频| 在线观看国产黄| 久久狠狠亚洲综合| 亚洲自拍中文字幕| www.成人免费视频| 成人深夜在线观看| 精品国产一区二区三区四区精华 | 波多野洁衣一区| 国产综合欧美在线看| 神马午夜在线观看| 久久综合狠狠综合久久激情| 蜜桃麻豆www久久国产精品| 经典三级在线| 中文字幕av一区 二区| 亚洲一区bb| av网站在线免费| 亚洲成人自拍网| 黄色片久久久久| 国产成人午夜性a一级毛片| 欧美美女喷水视频| 久久久久久久久久久影视| 风间由美性色一区二区三区四区| 亚洲成色777777在线观看影院| 男男做爰猛烈叫床爽爽小说| 精品日本12videosex| 久久精品久久久久久| 久久久久香蕉视频| 欧美亚洲免费| 国产一区深夜福利| 亚洲免费成人网| 久久精品一区蜜桃臀影院| 亚洲高清视频一区二区| av大大超碰在线| 欧美日韩一区二区免费在线观看| 日本激情视频在线播放| 亚洲精品在线a| 亚洲人成网7777777国产| 天天做夜夜爱爱爱| 9色国产精品| 成人国产精品免费视频| 嫩草影院一区二区| 国产精品久久久久久户外露出 | 国产成人午夜片在线观看高清观看| 国产成人精品日本亚洲11| 国产69久久| 亚洲网友自拍偷拍| 天天碰免费视频| 国产乱人伦丫前精品视频| 亚洲系列中文字幕| 久久久www成人免费毛片| 日韩精品乱码免费| 岛国视频一区| 日本黄色片在线观看| 欧美日韩国产综合视频在线观看中文| 中国黄色片一级| 免费电影一区二区三区| 欧美国产日韩一区二区| 亚洲国产无线乱码在线观看| 成人美女视频在线观看18| 一级二级三级欧美| 高清电影一区| 亚洲精品国偷自产在线99热| 久草资源在线视频| 麻豆精品一区二区av白丝在线| 国产自产在线视频一区| 超碰在线caoporn| 欧美日韩在线播| 蜜桃无码一区二区三区| 99精品国产一区二区青青牛奶| 97久久精品午夜一区二区| av福利精品| 欧美视频在线观看免费| 国产成人精品综合久久久久99 | 99久久国产综合精品五月天喷水| 亚洲色图综合| 正在播放亚洲1区| 狠狠人妻久久久久久| youjizz国产精品| 日韩黄色片在线| 麻豆视频久久| 久热精品视频在线免费观看| 亚洲天堂中文网| 亚洲国产精品精华液ab| 午夜激情福利在线| 欧美欧美黄在线二区| 97在线视频国产| 刘玥91精选国产在线观看| 一区二区三区精品在线| 精品人妻一区二区三区免费| 午夜激情久久| 成人午夜在线视频一区| 国产视频中文字幕在线观看| 91麻豆精品91久久久久同性| 999精品在线视频| 激情偷乱视频一区二区三区| 男女啪啪的视频| 精品国产一区二| 久久91精品国产| 亚洲黄色小说网址| 亚洲成人www| 黄色片视频免费观看| 99视频+国产日韩欧美| 精品国产一二| 欧美中文字幕精在线不卡| 亚洲视频在线观看视频| 最近国语视频在线观看免费播放| 中文在线免费一区三区高中清不卡| 亚洲色图 在线视频| 欧美激情成人| 亚洲综合精品一区二区| 女人黄色免费在线观看| 日韩电视剧在线观看免费网站| 久久久久久在线观看| 中文字幕精品一区二区三区精品| 亚洲视频一二三四| 精品999成人| 欧美一区二区三区精美影视| 国产原创一区| 欧美激情国产精品| 三级视频网站在线| 欧美日韩一区二区在线视频| 欧美人禽zoz0强交| 91在线porny国产在线看| 日韩精品一区二区三区色欲av| 成人免费看片39| www.久久久| 国产超碰精品| 欧美日韩国产成人| 免费福利在线观看| 欧美一区日本一区韩国一区| 国产香蕉视频在线| 国产精品久久久久久久裸模| 国产伦精品一区二区三区妓女下载| 亚洲国产免费| 亚洲制服中文| 免费观看成人www动漫视频| 国产精品永久免费| 福利小视频在线| 最近更新的2019中文字幕| www视频在线| 在线视频欧美区| 免费无码毛片一区二区app| 久久久久国产精品厨房| 超碰人人cao| 日本欧美韩国一区三区| 日韩极品视频在线观看| 欧美大黑bbbbbbbbb在线| 国产综合色一区二区三区| 不卡亚洲精品| 17婷婷久久www| av网址在线免费观看| 亚洲午夜激情免费视频| 色综合视频在线| 欧美一卡二卡在线观看| 国产免费a视频| 午夜伦欧美伦电影理论片| 中文字幕在线观看2018| 国产亚洲欧美色| 黄色在线免费播放| 国产麻豆9l精品三级站| 国产精品涩涩涩视频网站| 亚洲国产高清一区二区三区| 超碰97免费观看| 欧美日韩一二| 欧美日韩天天操| 露出调教综合另类| 成人自拍偷拍| 亚洲高清在线一区| 91免费精品国偷自产在线| 四虎影视4hu4虎成人| 韩国日本不卡在线| 黑人另类精品××××性爽| 久久福利网址导航| 黄网页免费在线观看| 中文字幕亚洲一区二区三区| 国产精品久久久久一区二区国产| 日韩高清免费在线| 天天操天天操天天| 欧美精品一区二区蜜臀亚洲| 国内老熟妇对白hdxxxx| 91精品黄色片免费大全| 91欧美日韩麻豆精品| 欧美视频一区二区在线观看| 国产99免费视频| 色域天天综合网| 无码人妻精品一区二区| 一本大道综合伊人精品热热| 亚洲高清毛片一区二区| 欧美日韩国产精品| 久草手机在线观看| 日韩欧美国产黄色| 无码一区二区三区| 欧美色老头old∨ideo| 中文字幕永久在线观看| 欧美日韩综合在线免费观看| 亚洲熟女乱色一区二区三区久久久| 欧美在线观看禁18| 伊人精品在线视频| 91麻豆精品国产| 亚洲男人天堂久久| 亚洲激情视频在线观看| 手机福利小视频在线播放| 精品中文视频在线| 99青草视频在线播放视| 久久精品国产视频| 美女尤物在线视频| 51色欧美片视频在线观看| 成人天堂yy6080亚洲高清| 国产精品日日做人人爱| 成人污版视频| 精品免费视频123区| 国产日产一区| 亚洲综合首页| 亚洲特级毛片| 日批视频在线免费看| 三级成人在线视频| 深夜福利网站在线观看| 成人app下载| 夜夜春很很躁夜夜躁| 亚洲色图欧洲色图| 日本在线观看视频网站| 色噜噜夜夜夜综合网| 国产精品一区二区av白丝下载| 精品卡一卡二卡三卡四在线| 久热av在线| 欧美大胆a视频| 中文字幕在线视频网站| 国产伊人精品在线| 国产极品模特精品一二| 日韩精彩视频| 黄色成人91| 免费看黄色一级大片| 国产成人无遮挡在线视频| 中文字幕国产综合| 亚洲人妖av一区二区| 欧美在线观看不卡| 制服丝袜亚洲播放| 免费福利在线观看| 欧美精品久久久久a| 国产精品原创视频| 精品国产中文字幕| 中文字幕一区二区精品区| av免费在线播放网站| 国产二区国产一区在线观看| japanese中文字幕| 亚洲h在线观看| 国产伦精品一区二区三区视频痴汉| 亚洲精品久久7777777| 无遮挡的视频在线观看| 欧美一区三区三区高中清蜜桃| 成人国产精品久久| 色大师av一区二区三区| 99亚洲伊人久久精品影院红桃| 亚洲黄色av片| 日本一区二区三区国色天香 | 中文字幕在线官网| 97人人干人人| 91久久国产| 天堂社区在线视频| 97se狠狠狠综合亚洲狠狠| 青青草免费av| 91精品一区二区三区久久久久久| 国产精品影院在线| 青青精品视频播放| 都市激情亚洲| 乱熟女高潮一区二区在线| 麻豆91精品91久久久的内涵| 亚洲综合色一区| 午夜一区二区三区在线观看| 亚洲AV无码一区二区三区性 | 免费在线观看黄色小视频| 91极品视觉盛宴| 精品av中文字幕在线毛片| 69av在线视频| 盗摄牛牛av影视一区二区| 欧美一级黄色录像片| 激情另类小说区图片区视频区| 免费一级特黄3大片视频| 色综合天天综合给合国产| 午夜视频福利在线| 97精品在线视频| 精品视频自拍| 尤物av无码色av无码| av不卡一区二区三区| 日本亚洲色大成网站www久久| 欧美成人精品二区三区99精品| 午夜在线激情影院| 99re国产| 91久久黄色| 特级西西人体wwwww| 精品国产91久久久久久老师| 香蕉视频成人在线| 2021久久精品国产99国产精品| 久久成人福利| 国产午夜伦鲁鲁| 久久婷婷综合激情| 久久精品久久久久久久| 一个人www欧美| 色8久久久久| 免费观看国产视频在线| 国产成人在线色| 日韩乱码一区二区| 亚洲欧美国产视频| 国产原创一区| 国产专区在线视频| 99精品国产99久久久久久白柏 | 日韩电影免费在线| 日本 欧美 国产| 欧美大黄免费观看| 在线免费av资源| 亚洲精品国产精品国自产观看| 国产一区二区伦理| 日本视频www| 亚洲视频日韩精品| 国产精品一区二区美女视频免费看| 亚洲 欧美 综合 另类 中字| 久久综合九色综合欧美亚洲| 一本色道久久综合亚洲| 欧美另类xxx| 久久av网址| 91亚洲一区二区| 欧美日韩亚洲一区二区| 日本视频在线| 国产精品xxx在线观看www| 日本大胆欧美人术艺术动态| 国产精品老熟女一区二区| 精品香蕉在线观看视频一| 欧美久久久网站| 国产美女网站在线观看| 中文字幕一区日韩精品欧美| 国产 欧美 精品| 国产精品第一页在线| 国产一区亚洲| 日韩视频在线观看免费视频| 日韩一区二区电影在线| 成人免费福利| 久久手机在线视频| 国产精品免费久久| 天堂中文在线资源| 91久久久在线| 久热精品视频| 久久国产免费观看| xxxxx成人.com|