當提示詞優化器學會進化，竟能勝過強化學習

2025-08-01 09:05:00

這篇論文提出的 GEPA（Genetic-Pareto）采用了一種名為 reflective prompt evolution（反思式提示詞進化）的技術，可以實現比 GRPO 高 20% 的性能，同時還能將 rollout 次數減少到原來的 1/35。

僅靠提示詞優化就能超越 DeepSeek 開發的 GRPO 強化學習算法？

是的，你沒有看錯。近日上線 arXiv 的一篇論文正是憑此吸引了無數眼球。

那么，GEPA 究竟是如何做到這一點的呢？讓我們翻開這篇來自 UC 伯克利和斯坦福等多家機構的論文一探究竟。

論文標題：GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
論文地址：https://arxiv.org/abs/2507.19457

GEPA：反思式提示詞進化

GEPA 的全稱是 Genetic-Pareto（遺傳-帕累托），這是一種用于復合式 AI 系統的樣本高效型優化器，其核心原理包括：

遺傳式提示詞進化
利用自然語言反饋的反思
基于帕累托的候選選擇

下圖給出了 GEPA 的概況。

下面則給出了 GEPA 的算法。

GEPA 的輸入是一個復合 AI 系統 Φ，其中包含待優化的簡單提示詞、訓練數據集 D_train、該任務的標準評估指標 μ、反饋函數 μ_f 以及總部署預算 B。

遺傳式優化循環

給定一個復合 AI 系統 Φ，優化過程的目標是確定一組參數 ?Π, Θ?_Φ，以最大化其在任務分布上的得分。

GEPA 首先會初始化一個候選池 P，其中候選項是該復合系統中一個帶有可學習參數 ?Π, Θ?_Φ 的具體實例。

一開始，該候選池僅包含基礎系統的參數 —— 這是唯一候選。然后，GEPA 進入優化循環，迭代地提出新的候選項并將其添加到池中，持續此過程直至耗盡評估預算。

通過突變或雜交修改現有候選集，GEPA 可以迭代式地提出效果越來越好的候選項。相關信息則來自收集的 rollout 的學習信號以及跟蹤每個新候選集的祖先。這使得 GEPA 能夠在優化過程中沿著遺傳樹積累經驗教訓。每個新候選項都會繼承其父級的學習信號，以及當前 rollout 的信號。

在每次迭代中，GEPA 都會從候選池中識別出有希望的候選項（候選項選擇），并提議一個新的候選項（可能通過基于反思反饋對模塊中的提示詞執行突變，或在兩個候選項之間進行雜交）并在小批量任務上評估這個新變體。如果新提出的候選項在本地小批量數據上相對于其父集表現出更高的性能，GEPA 會將該新候選項添加到候選池 P 中。這需要跟蹤內部數據結構，包括跟蹤新候選項的祖先，以及在 D_pareto（用于候選項選擇的驗證集）上對新候選項進行全面評估。

預算耗盡后，GEPA 將返回在 D_pareto 上總體性能最佳的候選項。

反思式提示詞突變

在復合 AI 系統執行過程中生成的自然語言軌跡能夠體現其中間推理和底層推理步驟，從而提供對每個模塊行為和職責的豐富可見性。

當這些軌跡與系統的最終結果（例如成功或失敗）配對時，就能提供重要的診斷價值，從而幫助將錯誤或成功追溯到做出的具體決策 —— 可達模塊級別。

然后，LLM 可以通過反思利用這些軌跡進行隱式 credit 分配，將最終結果的成敗歸因到相關模塊。這種反思過程可用于對各個模塊進行有針對性的更新，從而對整個系統的行為進行大規模且有效的更新。

GEPA 的操作如下：給定一個在優化循環的當前迭代中進行突變的候選模塊，GEPA 使用候選參數更新系統，在系統中選擇一個目標模塊進行改進（通過循環調度確保所有模塊都收到更新），并在從訓練數據集中采樣的小批量上生成一些 rollout，記錄它們的結果（成功 / 失敗）。

通過檢查系統的執行軌跡，GEPA 可以識別目標模塊的輸入、輸出和推理。據此，GEPA 使用 LLM 反思性地檢查這些信息，將成功或失敗歸因于模塊提示詞的元素，并為目標模塊提出新的指令。然后，一個新的候選模塊被提出，作為當前指令的副本，目標模塊的提示詞也更新為新提出的提示詞。

GEPA 用于執行反思提示詞更新的元提示詞可見原論文附錄部分。

評估軌跡作為診斷信號：雖然系統自身的執行軌跡已經提供了有用的信息，可以成功進行反思和提示詞更新，但該團隊發現了另一個高度診斷性的信息來源：評估指標 μ。

通常，評估指標 μ 會應用豐富的策略來執行評估，以得出最終分數。例如，代碼評估環境會運行一系列步驟（編譯、執行、性能分析等），每個步驟都會生成自然語言軌跡，然后提供標量獎勵。

該團隊建議，除了系統自身的執行軌跡之外，還應使用這些評估軌跡來執行反思信用分配和有針對性的提示詞更新。GEPA 將其操作化為對評估指標 μ 的簡單更新，以創建反饋函數 μ_f，該函數會識別評估指標執行過程中生成的相關文本軌跡，并返回最終分數以及反饋文本 (feedback_text)。只要可用，這樣的反饋函數還可以提供模塊級反饋（例如，在 multi-hop 系統中，評估器可以在系統每一跳之后提供反饋）。

基于帕累托的候選選擇

GEPA 是一種高度模塊化的算法，能夠支持在每次優化迭代中選擇候選的各種策略。最關鍵的是，候選選擇策略的選擇決定了優化器所采用的探索 - 利用權衡。

一種簡單的策略是始終選擇池中表現最佳的候選。然而，這可能導致優化器陷入提示詞空間內的局部最優：一旦找到占優策略，就很難超越它，優化器會在沒有學習新的、可能更好的策略的情況下耗盡其預算。

圖 6a 展示了使用此策略生成的示例搜索樹。具體來說，請注意搜索過程如何找到一個新的策略（第一個子節點），然后不斷嘗試改進它，但在多次迭代中都失敗了，最終耗盡了所有的 rollout 預算。

為了解決這個問題，GEPA 采用了基于帕累托的 illumination 策略（Mouret & Clune，2015），如算法 2 所示。

具體來說，GEPA 會確定池中所有候選項中每個訓練實例所取得的最高分數，從而創建一個迄今為止優化過程所取得分數的「帕累托前沿」。然后，GEPA 會編制一份至少在一項訓練任務中取得最佳分數的候選項列表。這會實現對候選池的過濾，篩選出那些采用了「獲勝」策略的候選項，從而保留在任何反思突變中發現的所有寶貴見解。

接下來，GEPA 會修剪那些嚴格占優的候選項：例如，如果候選項 2 僅在任務 1 上取得最佳分數，但候選項 3 在任務 1 和任務 2 上都取得了相同的最佳分數，則將候選項 2 移除。

最后，GEPA 會從修剪后的列表中隨機抽取一個候選項，為在更多訓練實例中取得最佳分數的候選項分配更高的選擇概率。

在實踐中，該策略有助于 GEPA 避免陷入局部最優，而無需過度擴大搜索范圍。通過將資源集中在那些已經展現出有效「獲勝」策略的有潛力的候選項上，GEPA 可有效地平衡探索與利用，從而能夠在優化預算范圍內持續改進。

GEPA 表現如何？

該團隊也通過實驗驗證了 GEPA 的表現，并將結果總結成了 5 點觀察。

觀察 1：反思式提示詞進化具有極高的樣本效率，其性能甚至超越權重空間強化學習。

在所有四個基準測試中，GEPA 在復合 AI 系統中展現出了快速的適應性和強大的泛化能力 —— 其性能比 GRPO（使用 LoRA 進行 24,000 次 rollout）高 19%，同時 rollout 次數減少到了其 1/35。

觀察 2：反思式提示詞進化可使單獨的指令優化性能優于聯合式指令和少樣本優化。

該團隊使用兩個領先模型（GPT-4.1 mini 和 Qwen3 8B）在四個不同的任務中對 GEPA 與 MIPROv2（一種最先進的聯合式指令和少樣本優化器）進行了比較。

實驗發現，GEPA 在所有設置下均始終優于 MIPROv2，在 GPT-4.1 mini 上實現了高達 11.1% 的優勢，在 Qwen3 8B 上實現了高達 10.3% 的優勢。此外，在所有基準測試和兩個模型中，GEPA 和 GEPA+Merge 的總增益均是 MIPROv2 基線的兩倍以上（分別為 +16.02% 和 +14.29%，而 MIPROv2 為 +7.04%）。

值得注意的是，不同于與先前的一些研究結果（指令優化主要通過準樣本 (Quasi-Exemplars) 實現改進），GEPA 的提示詞通常包含完成任務的詳細聲明式指令，如圖 2 所示。

觀察 3：下一候選項的選擇策略對優化軌跡和最終性能有顯著影響，其中基于帕累托的采樣方法具有明顯的優勢。

GEPA 的目標是通過利用新版本中的反饋來迭代優化提示詞。為了測試基于帕累托的候選選擇策略的效果，該團隊考慮了一個簡單的基準來實例化 SelectCandidate 策略：始終選擇當前表現最佳的候選項。

如表 2 中的消融結果所示，這種方法通常會導致對提示詞搜索空間的探索不夠理想，最終導致性能不佳 —— 采用基于帕累托的采樣策略的 GEPA 比 SelectBestCandidate 策略的性能高出 8.17%，在所有基準測試中保持了 +6.4% 的總體優勢。

圖 6 展示了這種簡單策略與該團隊提出的基于帕累托的采樣策略在優化軌跡上的顯著差異。

始終選擇當前最佳候選往往會在下一次迭代中立即帶來改進，但隨后會導致優化器停滯，耗盡其整個部署預算來嘗試進一步改進該特定候選。相比之下，該團隊基于帕累托的采樣方法通過考慮所有 Pareto 最優候選（代表迄今為止發現的所有「獲勝」策略）來擴展搜索范圍，從而確保在探索和利用權衡之間取得緊密平衡 —— 最終在相同的部署預算內收斂到性能更高的解答。

觀察 4：經過指令優化的提示詞比少樣本演示提示詞計算成本更低，泛化能力更強。

除了強大的泛化能力外，反思式進化的指令還具有顯著的實用優勢：它們通常比少樣本演示提示詞更短，因此計算效率更高。這種優勢在復雜任務中尤為明顯，因為即使是單個少樣本演示也可能非常長。當使用最新技術優化少樣本示例時，問題會進一步加劇。諸如 MIPROv2 等先進方法，可以聯合優化多個演示以便同時使用，從而進一步增加提示詞長度。

觀察 5：系統感知型雜交策略可以帶來巨大的收益，但突變和雜交之間的最優預算分配以及何時調用合并仍需進一步研究。

該團隊確定了一種獨特的系統感知型雜交策略，并將其做成了一個操作 Merge。

GEPA+Merge 的性能比 GEPA 高出 5%，在 GEPA 已經擁有的強勁性能基礎上再提升 2%。詳細結果見表 1。該團隊將這些收益歸因于 GEPA+Merge 能夠識別不同的優化譜系，這些譜系已經學習了互補策略（通過演化不同的模塊），并通過從每個譜系中挑選不同模塊的最佳版本來合并它們，從而提出一個單一的最優候選方案。

最后，如果你也疑惑 GEPA 的讀音是什么又怎么與 JEPA 區分，Yann LeCun 發推給出了相當詳細的解釋：

責任編輯：張燕妮來源：機器之心

AI 模型論文