微調已死!「共識機制」實現提示詞自我進化,性能飆升
當前,人工智能領域正經歷一場由「模型微調」向「上下文工程」的范式轉變。
通過在輸入中引入更明確的指令和更豐富詳實的知識,「上下文工程」既無需投入高昂的訓練成本,亦不依賴開源模型權重參數,同時能夠為用戶和開發者提供更強的可解釋性,正逐漸成為構建高性能、可擴展且具備自我改進能力的 AI 系統的核心范式。
正因如此,「微調已死」成為了AI領域近期廣泛認可的熱門話題。
斯坦福新論文:微調已死,自主上下文當立
這其中最具有代表性的是提詞適應與優化算法。該類方法(如Alpha Evolve和GEPA)通過不斷迭代優化,得到一個最優提示詞實際使用。
然而,單一提示詞的表達能力有限,往往難以全面嚴謹地表述復雜任務的所有需求。
對于這一缺陷,多提示詞的相互協作是一個很自然的解決方案——單個提示詞可能無法處理特定輸入,但其他提示詞可以彌補這一方面的性能損失。
如果能基于多個提示詞生成的回答提取他們所達成的「共識」,AI系統就更有可能輸出正確答案。
基于這一思想,西湖大學MAPLE實驗室齊國君教授團隊提出了基于「共識機制」的提示詞組進化算法C-Evolve。
與既往僅優化單一提示詞不同,C-Evolve旨在通過進化算法生成一組提示詞。該組提示詞在對輸入信息進行獨立處理后,通過提取所有輸出結果的共識,以實現最優任務性能。
為實現這一目標,團隊創新性地提出了「共識表決得分」這一進化指標,用于評估單個提示詞在成組工作時的性能潛力,同時采用海島算法提升組內個體的多樣性。
通過多提示詞共識機制所帶來的增益,C-Evolve能夠突破單一系統提示詞的性能局限,顯著提升系統整體性能。

具體下面來看。
共識機制
一個AI系統
由一系列LLM調用模塊組成。

每個模塊
包含系統提示詞
。
為了優化這些提示詞
,使任務
上的性能指標
最大化,團隊定義如下優化問題:

其中x代表任務
的一條實例數據輸入,m代表評測所需的其他標注。
共識機制由一組獨立、同功能的提示詞共同完成。

給定任務輸入x,每個個體
首先分別處理得到結果。
然后,基于所有個體輸出
,團隊利用一個共識提取器
從中提取最終結果:

對于數學計算、客觀選擇等封閉回答類問題,團隊采用多數表決輸出高頻一致答案。
而對于開放式提問,團隊用LLM表決:通過大語言模型篩選出最具代表性的輸出結果,確保其能夠充分反映群體反饋中的主流意見。
尋找在共識機制下最優的一組提示詞
的優化問題如下:

基于海島的多提示詞進化算法
為了獲得一組性能最佳的提示詞
,團隊采用了基于海島的進化算法:在
個相互獨立的海島內并行迭代種群。
整個進化過程包含兩個階段:
1、基于個體獨立性能的預熱階段;
2、基于跨海島分組協作表現的共識進化階段。
兩階段均使用評估指標
和度量數據集
進行性能評估,同時另設反饋數據集
,用于生成每個個體的詳細執行記錄,作為額外的反饋信息輔助進化。
預熱階段
在此階段,團隊將個體獨立得分
作為進化算法的適應度評分。
每輪迭代中,每個海島首先依據島內所有個體的適應度
采樣一個父個體。
隨后,將選中的父個體與其在
上采樣數據得到的執行反饋、在
上測得的評估指標共同輸入至LLM,進化生成新個體。
每個島嶼的個體數量上限為
。
如超出,算法將淘汰在
上表現最差的個體。
完整的預熱階段算法如下:
共識表決階段
此階段中,每個個體依據其組成提示組之后的性能作為進化的適應度。
如圖所示,每個海島均生成一個新個體后,C-Evolve算法會構建
個提示組
。
每個提示組
從各島嶼i中分別采樣一個個體
。
而后,團隊基于共識機制測試這些組在
上的評估性能。

△基于共識機制的多提示詞進化算法
基于組評估結果,團隊很自然地想到可以以組為單位直接淘汰表現最差組的所有成員個體。
然而,不同組間存在個體重疊,這種激進的淘汰策略將同時影響其他表現較優的提示組。
為解決這一問題,團隊定義了每個個體Π的共識表決得分
,通過計算包含個體Π的所有提示詞組的評估性能的平均值,團隊能量化評估該個體有多大潛力參與構建一個好的提示詞組:

考慮到種群的動態變化,團隊采用指數平滑后的得分
作為進化的適應度評分,更新公式為:

此處,團隊特意避免直接計算個體參與的所有歷史提示詞組的平均性能。
這是因為早期采樣的提示詞組中的其他成員可能已被淘汰,這些過時結果無法真實反映個體在當前種群中的實際貢獻。
因此,采用EMA方法賦予最新采樣出的組更高權重,能有效抑制早期歷史結果對個體評估的影響。

△共識表決階段算法流程
提示詞性能飆升
實驗表明,C-Evolve同時適用于以Qwen3-8B為代表的開源模型和以GPT-4.1-mini為代表的閉源模型,并提升包括檢索問答、數學推理、指令遵從在內的一系列任務性能。

從IFBench任務上的系統提示詞優化過程示意圖可以看出,3個島會分別演化出關注不同側重點的提示詞,最終組成性能最好的提示詞組。

△IFBench任務提示詞組進化過程可視化圖
對訓練過程中種群特征進行降維并可視化,也可以看出在共識表決進化階段,不同種群會顯著地朝著不同方向進化,這保證了組內的多樣性和互補性。

△C-Evolve進化過程中提示詞種群分布
走向更高效的提示詞優化
總而言之,這篇文章介紹了一種基于共識機制和進化算法的多提示詞優化方法,C-Evolve。
通過系統性優化和融合多提示詞的智能特征,該方法能夠有效突破單一系統提示詞的性能局限,無需參數微調即可實現算法效能的顯著提升。
在上下文工程日益彰顯其重要性的今天,如何通過更好地設計提示詞,挖掘諸如Claude、GPT等成熟商業LLM的模型能力,是一個具有極高實際意義的課題。
「共識機制」為提示詞優化提供了全新的思路,通過模擬生物進化與群體協作的動態過程,不僅提升了提示詞的性能,還增強了模型在復雜任務中的適應能力,有望進一步釋放大語言模型的潛力,推動智能系統向更高效、更自適應的方向發展。






























