精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福和OpenAI提出meta-prompting,最強零樣本prompting技術誕生了

人工智能 新聞
在我們的工作群里,經常會有一位管理者來協調每個人的工作并匯總工作成果。近日,斯坦福大學的 Mirac Suzgun 和 OpenAI 的 Adam Tauman Kalai 提出了一種新的 prompting 方法:meta-prompting。

最新一代語言模型(尤其是 GPT-4、PaLM 和 LLaMa)已經成功拓展了自然語言處理和生成的邊界。這些大規模模型可以解決許多不同任務,從寫莎士比亞風格的十四行詩到總結復雜的醫療報告和解決競賽級的編程問題。盡管這些模型可以解決多種多樣的問題,但它們并非總是正確的,有時候也會生成不準確、誤導性或矛盾的響應結果。

隨著這些模型的運行成本越來越低,人們自然會問:是否可以使用腳手架系統(scaffolding system)并使用多個語言模型查詢來優化并且提升這些模型輸出的準確度和穩健性。

斯坦福和 OpenAI 的這項研究提出了一種可用于提升語言模型的功能和性能的新技術,稱為 meta-prompting。

圖片


  • 論文標題:Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding
  • 論文地址:https://arxiv.org/abs/2401.12954
  • 項目地址:https://github.com/suzgunmirac/meta-prompting

這種技術涉及構建一個高層級的「元」 prompt,其作用是指示語言模型做到以下幾點:

1. 將復雜的任務或問題分解成更小的容易解決的子任務;

2. 使用適當且詳細的自然語言指令將這些子任務分配給專業的「專家」模型;

3. 監督這些專家模型之間的通信;

4. 通過這個過程應用其自己的批判性思維、推理和驗證技能。

對于可使用 meta-prompting 有效調用的語言模型,當對其進行查詢時,該模型的作用是作為指揮員(conductor)。它會輸出一組消息歷史(或者稱為敘述(narrative)),其由多個專家模型的響應構成。這個語言模型首先會負責生成消息歷史中的指揮員部分,這其中包括專家的選取以及為它們構建特定的指令。但是,同一個語言模型本身也會作為獨立專家,其會基于專業知識以及指揮員為每條具體查詢選取的信息生成輸出。

這種方法可讓單個統一的語言模型維持連貫一致的推理路線,同時還可以利用各種不同的專家角色。通過動態地為 prompting 選擇上下文,這些專家能為該過程引入全新的視角,同時指揮員模型還能保持對完整歷史的鳥瞰視角并維持協調。

因此,這種方法能讓單個黑箱語言模型既有效作為中心指揮員,同時又充當一系列不同專家,這樣便可以得到更加準確、可靠和連貫一致的響應。

這里新提出的 meta-prompting 技術組合并擴展了近期研究提出的多種不同的 prompting 思想,包括高層級規劃和決策、動態人設分配、多智能體辯論、自我調試和自我反思。

meta-prompting 的一個關鍵方面是其具有一個性質:不受具體任務影響。

傳統的腳手架方法需要針對每個任務調整具體的指令或示例,而 meta-prompting 則不同,其在多種任務和輸入上都采用了同一套高層級指令。對怕麻煩的用戶來說,這種通用性尤其有益,因為這樣就不必為每個具體任務提供詳細的示例或具體指示了。

舉個例子,對于「寫一首關于自拍的莎士比亞式十四行詩」這樣的一次性請求,用戶無需補充高質量的新古典主義詩歌示例。

meta-prompting 方法能提供一種廣泛、靈活的框架,而又不會影響其特定性或相關性,從而可以提升語言模型的實用性。此外,為了展現 meta-prompting 方法的通用性和整合能力,該團隊還對其系統進行了增強,使其可以調用 Python 解釋器。如此一來,該技術就能支持更加動態和全面的應用,從而進一步提升其有效處理多種任務和查詢的潛力。

圖 2 展示了一個 meta-prompting 的會話流程示例。

圖片

其描繪了元模型(Meta Model,即指揮員模型)使用輸入和來自多個不同的專業專家模型或代碼執行的輸出解讀其自身輸出的過程。這樣的配置讓 meta-prompting 成為了一個近乎通用的工具。其允許將多個語言模型的交互和計算聚合成單一且連貫的敘述。meta-prompting 的不同之處在于其讓語言模型自己決定要使用哪些 prompt 或使用哪些代碼段。

該團隊使用 GPT-4 作為基礎語言模型進行了全面的實驗,比較了 meta-prompting 與其它無關任務型腳手架方法。

實驗發現,meta-prompting 不僅能提升整體性能,而且在多個不同任務上也往往能實現新的最佳結果。其靈活性尤其值得稱道:指揮員模型有能力調用專家模型(基本上就是其本身,只是指令不一樣)執行多種不同的功能。這些功能可能包括點評之前的輸出、為特定任務選取特定 AI 人設、優化生成的內容、確保最終輸出在實質和形式上都滿足所需標準。

如圖 1 所示,相比之前的多種方法,新方法的提升很明顯。

圖片

meta-prompting

直覺知識和抽象概述。meta-prompting 的工作方法是使用一個模型來協調和執行多個獨立查詢,然后將它們的響應綜合起來,進而渲染得到一個最終響應。從原理上講,該機制采用了一種集成方法,即借用獨立專業模型的力量和多樣性來協作解決和處理涉及多方面的任務或問題。

meta-prompting 策略的核心是其淺層的結構,其中使用一個單一模型(稱為元模型)作為權威的主實體。

這種 prompting 結構類似于管弦樂隊,其中指揮家的角色就由元模型充當,每位音樂演奏者都對應一個不同的特定領域的模型。正如指揮家可以讓多種樂器協調彈奏出和諧的旋律一樣,元模型也可以將多個模型的解答和見解組合起來,為復雜的問題或任務給出準確且全面的解答。

從概念上講,在這個框架內,特定領域的專家可以有多種多樣的形式,比如針對特定任務微調過的語言模型、用于處理特定類型查詢的專用 API,甚至還可以是計算器這樣的計算工具或用于執行代碼的 Python 解釋器等代碼工具。這些功能各異的專家都在元模型的監督下接受指示和統一,無法直接相互互動或交流。

Algorithmic Procedure. 算法 1 給出了新提出的 meta-prompting 方法的偽代碼。

圖片

簡單總結一下,首先是對輸入執行變換,使其符合適當的模板;然后執行以下循環:(a) 向元模型提交 prompt,(b) 如有需要,使用特定領域的專家模型,(c) 返回最終響應,(d) 處理錯誤。

需要指出,該團隊在實驗中采用的元模型和專家模型都是 GPT-4。它們的角色差異是由各自收到的指令確定的;其中元模型遵循圖 3 提供的一組指令,而專家模型則遵從元模型在推理時間動態確定的指令。

圖片

實驗設置

基準

該團隊比較了 meta-prompting 與以下 prompting 方法的無關任務型零樣本式版本:

  • 標準 prompting
  • 零樣本思維鏈 prompting
  • 專家 prompting
  • 多人設 prompting

數據集和任務

該團隊在實驗中采用了多種任務和數據集,它們需要多種不同能力,比如數學和算法推理、特定領域知識和文學創造力。這些數據集和任務包括:

  • Game of 24:目標是使用四個給定數值(每個只能使用一次)構建一個結果為 24 的算術表達式。
  • 三個 BIG-Bench Hard(BBH)任務:Geometric Shapes、MultiStep Arithmetic Two 和 Word Sorting;另外還有一個直接從 BIG-Bench 套件獲取的推理任務 Checkmate-in-One。
  • Python Programming Puzzles(P3),即 Python 編程題,包含多個難度。
  • Multilingual Grade School Math,即多語言小學數學,這是 GSM8K 數據集的一個多語言版本,包含孟加拉語、日語和斯瓦希里語等語言。
  • Shakespearean Sonnet Writing,即莎士比亞式十四行詩寫作,這是該團隊創建的一個新任務,目標是寫出按「ABAB CDCD EFEF GG」嚴格押韻的十四行詩,其中應一詞不差地包含所提供的三個詞。

答案提取和評估協議

如圖 3 所示,對于新提出的 meta-prompting 方法,系統指令會鼓勵元模型以特定格式給出最終答案。

至于評估,則會根據任務的性質和形式,采用以下三個指標之一:

  • Exact Match (EM),精確匹配
  • Soft Match (SM),軟匹配
  • Functionally Correct (FC),功能正確性

模型和推理

該團隊的主要實驗都使用了 GPT-4(gpt-4-32k)。一些補充實驗則使用了 GPT-3.5(gpt-35-turbo)。不管是 GPT-3.5 還是 GPT-4,都使用了以下指令進行微調。

在全部實驗中,元模型使用的參數和系統指令都是一樣的。溫度值設置為 0,top-p 值設置為 0.95,最大 token 數為 1024。

主要結果和討論

表 1 總結了實驗結果,新提出的 meta-prompting 的優越性得到了體現。

圖片

觀察這些方法在所有任務上的總體性能,可以看到 meta-prompting 為準確度帶來的顯著提升,尤其是使用了 Python 解釋器工具輔助時。

具體來說,meta-prompting 方法勝過標準 prompting 方法 17.1%,超過專家(動態) prompting 17.3%,也比多人設 prompting 優秀 15.2%。

另外從圖 4 和 5 可以看到,相比于不使用 Python 解釋器的 meta-prompting,整合 Python 解釋器時,在不同任務上的整體性能可獲得 11.5% 的提升。

圖片

圖片

該團隊還在論文中深入討論了從實驗中得到了關鍵見解,包括 meta-prompting 的性能優越性、零樣本分解能力、錯誤檢測、信息聚合和代碼執行等。這里我們就不詳細說明了,但 Fresh Eyes 這一概念倒是值得介紹一番。

Fresh Eyes 也就是用另一雙眼睛看,這有助于緩解語言模型的一個眾所周知的問題:犯錯時會一路錯到底并且會表現出過度自信。

Fresh Eyes 是 meta-prompting 與多人設 prompting 的一大關鍵差異,并且實驗結果也證明了其具有優勢。在 meta-prompting 中,可以使用專家(或人設)來對問題進行重新評估。這種方法有機會得到全新的見解,從而有望發現之前未被發現有誤的解答。

基于認知心理學,Fresh Eyes 可以帶來更具創造性的問題求解和錯誤檢測結果。

下面的例子展示了 Fresh Eyes 在實踐中的好處。假設任務是 Game of 24,提供的數值是 6、11、12 和 13,要求構建一個能讓結果為 24 的算術表達式并且每個數只能用一次。其歷史過程可能會是這樣:

1. 元模型提議咨詢解答數學問題的專家模型和使用 Python 編程。它強調了對準確度和遵守約束條件的必要性,并建議如有需要可讓另一個專家參與進來。

2. 一個專家給出了一個解答,而另一個專家則認為其不對,于是元模型建議寫一個 Python 程序來尋找有效的解。

3. 咨詢一個編程專家,讓其寫一個程序。

4. 另一個編程專家在腳本中發現了一個錯誤,然后對其進行修改并執行修改后的腳本。

5. 再咨詢一個數學專家,讓其驗證該程序輸出的解。

6. 驗證完成后,由元模型將其輸出作為最終答案。

這個示例展現了 meta-prompting 如何在每一步納入新觀點,這樣不僅能找到解答,而且還能有效識別和糾正錯誤。

該團隊最后討論了一些與 meta-prompting 有關的其它問題,包括對所使用的專家類型的分析、獲得最終結果所需的對話輪數以及如何應對無解問題等情況。詳情請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-01-29 12:49:00

AI模型

2023-11-05 15:15:47

AI技術

2024-06-25 09:35:04

模型訓練

2025-02-06 11:25:50

2021-07-24 10:19:14

AI 數據克隆

2025-02-07 10:10:05

MusicMagus擴散模型音樂編輯

2025-02-08 11:12:34

ZAPS影像模型

2023-02-03 16:31:02

模型

2024-11-20 16:51:00

目標檢測模型

2023-02-24 10:22:15

2024-01-02 14:07:00

2024-09-12 08:00:00

2024-07-09 12:59:37

2023-03-31 13:55:00

模型智能

2024-04-24 09:47:36

2025-06-13 00:03:00

2022-06-13 11:57:04

谷歌模型計算

2023-04-10 15:52:57

模型樣本

2023-11-08 17:29:00

AI模型
點贊
收藏

51CTO技術棧公眾號

91老师片黄在线观看| 麻豆一区二区| 亚洲精品国产一区二区精华液 | 黄网在线观看视频| av大片在线播放| 91精品国产自产在线观看永久∴ | 奇米777欧美一区二区| 亚洲国产精品久久久男人的天堂| 久热国产精品视频| 丰满少妇一区二区三区专区| 涩涩视频在线播放| 亚洲三级久久久| 久久综合婷婷综合| 国产黄色一级大片| 日韩和欧美的一区| 欧美精品福利在线| 99成人在线观看| 日韩男人的天堂| 国产一级在线播放| 欧美羞羞视频| 一二三四区精品视频| 精品日本一区二区三区| 国产一区二区三区在线观看| 亚洲午夜久久| www..com久久爱| 亚洲精品免费一区二区三区| 日本熟妇毛耸耸xxxxxx| 久久这里只有精品一区二区| 尤物在线观看一区| 亚洲精品国产精品国自产观看| 日韩一级片免费| 国产老女人精品毛片久久| 国产精品福利在线| 日日骚av一区二区| mm131国产精品| 三级在线播放| 国产成人免费网站| 91精品久久久久久久久久| www.com亚洲| 亚洲毛片av| 欧美电影一区二区三区| 色狠狠久久av五月综合| 丁香六月天婷婷| 国产又粗又猛又爽又黄91精品| 日韩中文字幕不卡视频| av中文字幕av| av电影高清在线观看| 国产精品天干天干在观线| 日本黑人久久| 成年人视频在线看| 天堂精品久久久久| 久久国产日本精品| 综合国产在线观看| jizz中文字幕| 国产福利一区二区精品秒拍| 日韩美女一区二区三区| 婷婷中文字幕在线观看| 国产精品一区二区精品| 波多野结衣视频一区| 97在线观看视频国产| 麻豆视频在线观看| 你懂的成人av| 欧美激情手机在线视频| 国产一级久久久| 欧美在线高清| 午夜精品久久久久久久白皮肤 | 蜜桃av免费观看| 久久蜜桃av| 国产视频一区二区在线| 日韩欧美中文一区| 8x8x最新地址| 国产精品美女午夜爽爽| 91精品国产福利在线观看| 亚洲免费精品视频| bt在线麻豆视频| 久久亚洲电影| 国产精品丝袜白浆摸在线| 91精品视频免费在线观看| 欧美日本三区| 欧美在线视频网站| 无码免费一区二区三区| 秋霞电影一区二区| 亚洲xxx大片| 香蕉国产在线视频| 国产精品乱码久久久久久| 国产精品视频网址| 草久视频在线观看| 免费在线高清av| 美女诱惑一区| 久久久久久中文字幕| 久久久久久久中文字幕| 国产日韩欧美一区| 国产日韩欧美在线播放| 国内精品国产成人国产三级| 91亚洲国产成人精品一区二三 | 成人激情开心网| 欧美高清你懂得| 国产女人18毛片水真多18| 精品日韩欧美一区| 一区二区欧美久久| 久久国产精品波多野结衣| 日韩高清一级片| 亚洲精品一区久久久久久| 黄色片网站免费| 韩日视频一区| 国产精自产拍久久久久久蜜| 动漫av一区二区三区| 色婷婷视频在线| 日韩精品一二三| 欧美又大粗又爽又黄大片视频| 国产精品爽爽久久久久久| 懂色av一区二区三区免费看| 久久一区二区精品| 成人性生交大片免费看午夜| 一区二区三区四区激情| 亚洲中文字幕无码专区| 四虎影视成人精品国库在线观看| 亚洲精品永久免费精品| 极品久久久久久| 日本在线不卡视频| 国产精品999999| 亚洲成熟女性毛茸茸| 久久免费电影网| 国产精品自拍合集| 中国色在线日|韩| 亚洲国产日韩在线一区模特| 日本www在线播放| 四虎国产精品免费久久5151| 国产视频精品免费播放| 九热这里只有精品| 岛国中文字幕在线| 一本久道综合色婷婷五月| 国产日韩一区欧美| 欧美精品在线一区二区| 日韩精品有码在线观看| xxxxxxxxx欧美| 亚洲午夜精品久久久久久久久久久久| 亚洲精品一区二区三区婷婷月| 亚洲精选中文字幕| 亚洲国产精品va| 欧美日本在线播放| 亚洲国产成人va在线观看天堂| ...中文天堂在线一区| 欧美专区一区二区三区| 久久久久久免费网| 久久高清免费视频| 久久综合图片| 成人a免费视频| 亚洲91精品在线| 久久综合亚洲社区| 亚洲视频网站在线观看| 日韩一本二本av| 亚洲va韩国va欧美va精品| 亚洲激情自拍偷拍| 欧美精品国产精品| 午夜在线视频观看日韩17c| 免费av毛片在线看| 久草手机在线视频| 日本老熟俱乐部h0930| 色欲av无码一区二区三区| 国产黄色片免费在线观看| 色99中文字幕| 中文字幕精品网| 欧美日韩一区二区免费在线观看| 99精品偷自拍| 久久精品国产久精国产爱| 国产精品免费不| 欧美一级淫片| 日韩综合精品| 在线一区免费| 国产黄色av片| 91浏览器在线观看| 欧美成人黄色网| 欧美 日本 国产| 91麻豆精品久久毛片一级| 午夜影院免费版| 日本一区二区精品| 97国产超碰| 91精品久久久久久久久久久| 成人有码在线播放| 日本一区二区三区视频免费看| 日韩区国产区| 欧美精品尤物在线| 国产一区在线观| 国产一区二区三区四区五区在线 | 色呦呦免费观看| 国产精品一级视频| 日韩色淫视频| 日韩一区二区在线看| 视频国产一区二区| 国产一区导航| 精品国产乱码久久久久软件| 青春草在线观看| 91成人在线精品| 精品久久一二三| 欧美**vk| 国产精品网址在线| 浪潮av一区| 日韩三级.com| 中文字幕人妻丝袜乱一区三区| 亚洲线精品一区二区三区八戒| 免费看黄色av| 高清不卡一区二区在线| 制服丝袜综合网| 蜜桃av免费观看| 日本中文字幕不卡| 国产视频不卡| 先锋影音一区二区| 77777少妇光屁股久久一区| 色wwwwww| 色欧美片视频在线观看在线视频| 国产18无套直看片| 99精品国产一区二区三区不卡| 青青在线免费视频| 久久影院一区| 日本高清+成人网在线观看| 一级黄色a视频| heyzo一本久久综合| 五月天婷婷影视| 午夜一区不卡| 国产91成人video| 亚洲国产999| 欧美一区二区免费观在线| 黄色一级视频免费看| 亚洲综合激情网| 三级影片在线看| 日本电影一区二区| 日韩精品一区二区三区swag| 中文字幕777| 日韩欧美在线网址| 国产日产在线观看| 久88久久88久久久| 青青青在线观看视频| 欧美一区成人| 亚洲综合首页| 西瓜成人精品人成网站| 欧美性在线观看| 在线播放免费av| 久久这里只有精品视频首页| 第九色区av在线| 亚洲精品在线观看视频| 日本丰满少妇做爰爽爽| 欧美性生交xxxxxdddd| 日本高清www| 91久色porny| 91精品人妻一区二区| 久久香蕉国产线看观看99| 男女黄床上色视频| 麻豆免费在线视频| 337p亚洲精品色噜噜噜| 国产精品成人网站| 亚欧色一区w666天堂| 欧美激情久久久久久久| 日本sm残虐另类| 日韩av在线综合| 性欧美videos另类喷潮| 人人妻人人添人人爽欧美一区| 91麻豆精品国产91久久久平台| 一区二区在线观看网站| 亚洲乱码免费伦视频| 四虎永久国产精品| 日韩一区电影| 日日夜夜精品网站| 91精品国产视频| 久久av综合网| 第一社区sis001原创亚洲| gogogo免费高清日本写真| 欧美激情综合色综合啪啪| 黄色一级视频在线播放| 国产精品综合色区在线观看| 欧美精品一区二区不卡| 国产精品7777| 国产精品久久毛片a| 久久久久久久无码| 中文字幕第一区第二区| 丰满岳乱妇一区二区| 羞羞答答国产精品www一本| 成人在线免费在线观看| 免费日韩一区二区三区| 日韩资源av在线| 不卡中文字幕| 欧美一级特黄aaaaaa在线看片| 蜜臀久久99精品久久一区二区| 成人免费视频网址| 成人精品在线| 欧美最猛性xxxxx亚洲精品| 免费看男女www网站入口在线| 国产精品久久久久77777| 日本免费一区二区视频| 欧美精品一区二区三区在线看午夜 | 91在线播放视频| 蜜乳av另类精品一区二区| 中文字幕久精品免| 亚洲久久一区| 亚洲高清免费在线观看| 国产乱人伦偷精品视频不卡 | 久久久久久亚洲精品不卡| 亚洲第一黄色片| 亚洲色图17p| 免费在线看黄网站| 国产视频精品久久久| 国产网友自拍视频导航网站在线观看| 国模极品一区二区三区| 免费日韩成人| 国产成人精品日本亚洲11 | 精品91一区二区三区| 欧美日韩中文| 久久精品夜色噜噜亚洲aⅴ| 这里只有精品在线观看视频| 国产精品色一区二区三区| 日韩av男人天堂| 在线观看91av| 亚洲精选一区二区三区| 亚洲国产一区二区三区在线观看| 日本高清视频在线观看| 国产91精品在线播放| 99国内精品久久久久| 999视频在线免费观看| 日韩成人综合网| 日韩一区免费观看| 在线综合亚洲| 免费观看一区二区三区| 一区在线中文字幕| 中文字幕av第一页| 亚洲缚视频在线观看| 你懂的在线观看视频网站| 久久99国产综合精品女同| 国产aa精品| 国产乱人伦精品一区二区| 亚洲情侣在线| 成人在线激情网| 91亚洲精品一区二区乱码| 日韩av在线播放观看| 337p亚洲精品色噜噜狠狠| 免费网站免费进入在线| 日本一本a高清免费不卡| 网友自拍一区| 中文网丁香综合网| 免费人成精品欧美精品 | 亚洲欧洲在线观看av| 国产女主播喷水视频在线观看| 亚洲电影成人av99爱色| 韩国成人免费视频| 国产91一区二区三区| 成人午夜在线影视| 91国产免费观看| www.久久成人| 久久99久久99精品中文字幕| 日韩黄色三级在线观看| 一区二区三区欧美在线| 经典三级在线一区| 国产黄色小视频网站| 日韩一级完整毛片| 肉肉视频在线观看| 国产伦精品一区二区三区照片91 | 中文字幕精品—区二区四季| 欧美人一级淫片a免费播放| 国产亚洲精品va在线观看| 巨胸喷奶水www久久久免费动漫| 日韩欧美精品一区二区| 另类小说综合欧美亚洲| 久久国产波多野结衣| 欧美一区二区播放| 超级碰碰不卡在线视频| 精品一区二区国产| 亚洲尤物在线| 69xxx免费| 日韩欧美一级二级| 欧美gv在线| 日韩av电影免费在线| 久99久精品视频免费观看| 国产在线一区视频| 日韩电影中文 亚洲精品乱码 | 操你啦在线视频| 成人欧美一区二区| 亚洲日本黄色| 天堂资源在线视频| 欧美无人高清视频在线观看| 国产精品刘玥久久一区| 极品尤物一区二区三区| 天堂va蜜桃一区二区三区| 国产又黄又粗又猛又爽的| 欧美大片国产精品| 免费福利视频一区二区三区| 日本一区二区三区在线视频 | av在线播放中文字幕| 日韩情涩欧美日韩视频| 三上悠亚激情av一区二区三区| a级黄色片网站| av在线这里只有精品| 亚洲一级av毛片| 久久久亚洲影院| 清纯唯美日韩| 亚洲精品乱码久久久久久蜜桃图片| 欧美唯美清纯偷拍| 性感女国产在线| 99久re热视频精品98| 久久精品在线免费观看| 午夜精品久久久久久久爽| 国产精品久久久亚洲|