斯坦福和OpenAI提出meta-prompting，最強零樣本prompting技術誕生了

作者：機器之心 2024-02-07 12:13:19

在我們的工作群里，經常會有一位管理者來協調每個人的工作并匯總工作成果。近日，斯坦福大學的 Mirac Suzgun 和 OpenAI 的 Adam Tauman Kalai 提出了一種新的 prompting 方法：meta-prompting。

最新一代語言模型（尤其是 GPT-4、PaLM 和 LLaMa）已經成功拓展了自然語言處理和生成的邊界。這些大規模模型可以解決許多不同任務，從寫莎士比亞風格的十四行詩到總結復雜的醫療報告和解決競賽級的編程問題。盡管這些模型可以解決多種多樣的問題，但它們并非總是正確的，有時候也會生成不準確、誤導性或矛盾的響應結果。

隨著這些模型的運行成本越來越低，人們自然會問：是否可以使用腳手架系統（scaffolding system）并使用多個語言模型查詢來優化并且提升這些模型輸出的準確度和穩健性。

斯坦福和 OpenAI 的這項研究提出了一種可用于提升語言模型的功能和性能的新技術，稱為 meta-prompting。

論文標題：Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding
論文地址：https://arxiv.org/abs/2401.12954
項目地址：https://github.com/suzgunmirac/meta-prompting

這種技術涉及構建一個高層級的「元」 prompt，其作用是指示語言模型做到以下幾點：

1. 將復雜的任務或問題分解成更小的容易解決的子任務；

2. 使用適當且詳細的自然語言指令將這些子任務分配給專業的「專家」模型；

3. 監督這些專家模型之間的通信；

4. 通過這個過程應用其自己的批判性思維、推理和驗證技能。

對于可使用 meta-prompting 有效調用的語言模型，當對其進行查詢時，該模型的作用是作為指揮員（conductor）。它會輸出一組消息歷史（或者稱為敘述（narrative）），其由多個專家模型的響應構成。這個語言模型首先會負責生成消息歷史中的指揮員部分，這其中包括專家的選取以及為它們構建特定的指令。但是，同一個語言模型本身也會作為獨立專家，其會基于專業知識以及指揮員為每條具體查詢選取的信息生成輸出。

這種方法可讓單個統一的語言模型維持連貫一致的推理路線，同時還可以利用各種不同的專家角色。通過動態地為 prompting 選擇上下文，這些專家能為該過程引入全新的視角，同時指揮員模型還能保持對完整歷史的鳥瞰視角并維持協調。

因此，這種方法能讓單個黑箱語言模型既有效作為中心指揮員，同時又充當一系列不同專家，這樣便可以得到更加準確、可靠和連貫一致的響應。

這里新提出的 meta-prompting 技術組合并擴展了近期研究提出的多種不同的 prompting 思想，包括高層級規劃和決策、動態人設分配、多智能體辯論、自我調試和自我反思。

meta-prompting 的一個關鍵方面是其具有一個性質：不受具體任務影響。

傳統的腳手架方法需要針對每個任務調整具體的指令或示例，而 meta-prompting 則不同，其在多種任務和輸入上都采用了同一套高層級指令。對怕麻煩的用戶來說，這種通用性尤其有益，因為這樣就不必為每個具體任務提供詳細的示例或具體指示了。

舉個例子，對于「寫一首關于自拍的莎士比亞式十四行詩」這樣的一次性請求，用戶無需補充高質量的新古典主義詩歌示例。

meta-prompting 方法能提供一種廣泛、靈活的框架，而又不會影響其特定性或相關性，從而可以提升語言模型的實用性。此外，為了展現 meta-prompting 方法的通用性和整合能力，該團隊還對其系統進行了增強，使其可以調用 Python 解釋器。如此一來，該技術就能支持更加動態和全面的應用，從而進一步提升其有效處理多種任務和查詢的潛力。

圖 2 展示了一個 meta-prompting 的會話流程示例。

其描繪了元模型（Meta Model，即指揮員模型）使用輸入和來自多個不同的專業專家模型或代碼執行的輸出解讀其自身輸出的過程。這樣的配置讓 meta-prompting 成為了一個近乎通用的工具。其允許將多個語言模型的交互和計算聚合成單一且連貫的敘述。meta-prompting 的不同之處在于其讓語言模型自己決定要使用哪些 prompt 或使用哪些代碼段。

該團隊使用 GPT-4 作為基礎語言模型進行了全面的實驗，比較了 meta-prompting 與其它無關任務型腳手架方法。

實驗發現，meta-prompting 不僅能提升整體性能，而且在多個不同任務上也往往能實現新的最佳結果。其靈活性尤其值得稱道：指揮員模型有能力調用專家模型（基本上就是其本身，只是指令不一樣）執行多種不同的功能。這些功能可能包括點評之前的輸出、為特定任務選取特定 AI 人設、優化生成的內容、確保最終輸出在實質和形式上都滿足所需標準。

如圖 1 所示，相比之前的多種方法，新方法的提升很明顯。

meta-prompting

直覺知識和抽象概述。meta-prompting 的工作方法是使用一個模型來協調和執行多個獨立查詢，然后將它們的響應綜合起來，進而渲染得到一個最終響應。從原理上講，該機制采用了一種集成方法，即借用獨立專業模型的力量和多樣性來協作解決和處理涉及多方面的任務或問題。

meta-prompting 策略的核心是其淺層的結構，其中使用一個單一模型（稱為元模型）作為權威的主實體。

這種 prompting 結構類似于管弦樂隊，其中指揮家的角色就由元模型充當，每位音樂演奏者都對應一個不同的特定領域的模型。正如指揮家可以讓多種樂器協調彈奏出和諧的旋律一樣，元模型也可以將多個模型的解答和見解組合起來，為復雜的問題或任務給出準確且全面的解答。

從概念上講，在這個框架內，特定領域的專家可以有多種多樣的形式，比如針對特定任務微調過的語言模型、用于處理特定類型查詢的專用 API，甚至還可以是計算器這樣的計算工具或用于執行代碼的 Python 解釋器等代碼工具。這些功能各異的專家都在元模型的監督下接受指示和統一，無法直接相互互動或交流。

Algorithmic Procedure. 算法 1 給出了新提出的 meta-prompting 方法的偽代碼。

簡單總結一下，首先是對輸入執行變換，使其符合適當的模板；然后執行以下循環：(a) 向元模型提交 prompt，(b) 如有需要，使用特定領域的專家模型，(c) 返回最終響應，(d) 處理錯誤。

需要指出，該團隊在實驗中采用的元模型和專家模型都是 GPT-4。它們的角色差異是由各自收到的指令確定的；其中元模型遵循圖 3 提供的一組指令，而專家模型則遵從元模型在推理時間動態確定的指令。

實驗設置

基準

該團隊比較了 meta-prompting 與以下 prompting 方法的無關任務型零樣本式版本：

標準 prompting
零樣本思維鏈 prompting
專家 prompting
多人設 prompting

數據集和任務

該團隊在實驗中采用了多種任務和數據集，它們需要多種不同能力，比如數學和算法推理、特定領域知識和文學創造力。這些數據集和任務包括：

Game of 24：目標是使用四個給定數值（每個只能使用一次）構建一個結果為 24 的算術表達式。
三個 BIG-Bench Hard（BBH）任務：Geometric Shapes、MultiStep Arithmetic Two 和 Word Sorting；另外還有一個直接從 BIG-Bench 套件獲取的推理任務 Checkmate-in-One。
Python Programming Puzzles（P3），即 Python 編程題，包含多個難度。
Multilingual Grade School Math，即多語言小學數學，這是 GSM8K 數據集的一個多語言版本，包含孟加拉語、日語和斯瓦希里語等語言。
Shakespearean Sonnet Writing，即莎士比亞式十四行詩寫作，這是該團隊創建的一個新任務，目標是寫出按「ABAB CDCD EFEF GG」嚴格押韻的十四行詩，其中應一詞不差地包含所提供的三個詞。

答案提取和評估協議

如圖 3 所示，對于新提出的 meta-prompting 方法，系統指令會鼓勵元模型以特定格式給出最終答案。

至于評估，則會根據任務的性質和形式，采用以下三個指標之一：

Exact Match (EM)，精確匹配
Soft Match (SM)，軟匹配
Functionally Correct (FC)，功能正確性

模型和推理

該團隊的主要實驗都使用了 GPT-4（gpt-4-32k）。一些補充實驗則使用了 GPT-3.5（gpt-35-turbo）。不管是 GPT-3.5 還是 GPT-4，都使用了以下指令進行微調。

在全部實驗中，元模型使用的參數和系統指令都是一樣的。溫度值設置為 0，top-p 值設置為 0.95，最大 token 數為 1024。

主要結果和討論

表 1 總結了實驗結果，新提出的 meta-prompting 的優越性得到了體現。

觀察這些方法在所有任務上的總體性能，可以看到 meta-prompting 為準確度帶來的顯著提升，尤其是使用了 Python 解釋器工具輔助時。

具體來說，meta-prompting 方法勝過標準 prompting 方法 17.1%，超過專家（動態） prompting 17.3%，也比多人設 prompting 優秀 15.2%。

另外從圖 4 和 5 可以看到，相比于不使用 Python 解釋器的 meta-prompting，整合 Python 解釋器時，在不同任務上的整體性能可獲得 11.5% 的提升。

該團隊還在論文中深入討論了從實驗中得到了關鍵見解，包括 meta-prompting 的性能優越性、零樣本分解能力、錯誤檢測、信息聚合和代碼執行等。這里我們就不詳細說明了，但 Fresh Eyes 這一概念倒是值得介紹一番。

Fresh Eyes 也就是用另一雙眼睛看，這有助于緩解語言模型的一個眾所周知的問題：犯錯時會一路錯到底并且會表現出過度自信。

Fresh Eyes 是 meta-prompting 與多人設 prompting 的一大關鍵差異，并且實驗結果也證明了其具有優勢。在 meta-prompting 中，可以使用專家（或人設）來對問題進行重新評估。這種方法有機會得到全新的見解，從而有望發現之前未被發現有誤的解答。

基于認知心理學，Fresh Eyes 可以帶來更具創造性的問題求解和錯誤檢測結果。

下面的例子展示了 Fresh Eyes 在實踐中的好處。假設任務是 Game of 24，提供的數值是 6、11、12 和 13，要求構建一個能讓結果為 24 的算術表達式并且每個數只能用一次。其歷史過程可能會是這樣：

1. 元模型提議咨詢解答數學問題的專家模型和使用 Python 編程。它強調了對準確度和遵守約束條件的必要性，并建議如有需要可讓另一個專家參與進來。

2. 一個專家給出了一個解答，而另一個專家則認為其不對，于是元模型建議寫一個 Python 程序來尋找有效的解。

3. 咨詢一個編程專家，讓其寫一個程序。

4. 另一個編程專家在腳本中發現了一個錯誤，然后對其進行修改并執行修改后的腳本。

5. 再咨詢一個數學專家，讓其驗證該程序輸出的解。

6. 驗證完成后，由元模型將其輸出作為最終答案。

這個示例展現了 meta-prompting 如何在每一步納入新觀點，這樣不僅能找到解答，而且還能有效識別和糾正錯誤。

該團隊最后討論了一些與 meta-prompting 有關的其它問題，包括對所使用的專家類型的分析、獲得最終結果所需的對話輪數以及如何應對無解問題等情況。詳情請參閱原論文。

責任編輯：張燕妮來源：機器之心

AI 數據