終結獎勵欺騙?Google Deepmind 提出 Crome 框架

大家好,我是肆〇柒。大型語言模型(LLM)的對齊問題一直是人工智能領域的熱門話題。在將這些強大的模型應用于現實場景時,確保它們的行為能夠精準地與人類的偏好和價值觀對齊至關重要。為了實現這一目標,研究者們提出了強化學習從人類反饋(RLHF)這一范式。在 RLHF 的框架下,獎勵模型(RM)作為連接人類偏好與模型行為的橋梁,承擔著至關重要的角色。RM 的任務是從人類提供的反饋數據中學習,為模型的輸出賦予一個獎勵分數,從而引導模型的行為朝著更符合人類期望的方向發展。獎勵模型(RM)作為強化學習從人類反饋(RLHF)中的關鍵組件,其主要任務是從人類的偏好數據中學習并指導模型的行為。
然而,現有的 RM 常常受到獎勵欺騙問題的困擾,即模型可能基于一些表面的、非因果的特征來賦予高分,從而導致策略與真正的高質量行為脫節。這一問題源于 RM 在訓練過程中,往往會不自覺地依賴于一些表面的、與質量無關的特征,例如回答的長度、格式或者風格,而忽略了真正決定回答質量的核心因素。這種對虛假屬性的依賴使得 RM 易受數據中的噪聲和偏差影響,導致模型的魯棒性和泛化能力大打折扣,進而影響了整個 RLHF 系統的性能和可靠性。
為了解決這一難題,由 Google DeepMind 及其合作機構提出了 Crome 框架。Crome 通過引入因果模型,其設計目標就是提高 RM 對真正影響回答質量的因果屬性的敏感性,同時減少對虛假屬性的依賴,從而提升模型的魯棒性和對齊效果。
為了更清晰地展示 Crome 框架的實現過程,我們可以通過下圖來了解整個數據增強和訓練流程。在這個流程中,原始的問答對(Q, A1, A2)首先通過一個 oracle LLM 識別出因果屬性(C(A))。然后,基于這些因果屬性,生成降級的 A1 和升級的 A2 回答,形成因果增強數據。接下來,通過不相關查詢中性化(IQN)生成中性增強數據。這些數據經過驗證和過濾后,與原始數據結合,用于訓練獎勵模型(RM),從而增強其魯棒性。

Crome 數據增強與訓練Pipeline
Crome 框架的核心思想
Crome 框架的核心思想是基于因果模型來指導獎勵建模,以提高模型對因果屬性的敏感性和對虛假屬性的不變性。為了實現這一目標,Crome 引入了一種新穎的數據增強策略,包括因果增強和中性增強。
因果增強通過生成反事實示例來強化模型對因果屬性的敏感性。具體來說,對于一個原始回答,Crome 會利用 LLM 生成其在特定因果屬性上的升級或降級版本。例如,如果原始回答在事實性上表現較好,Crome 可能會生成一個事實性被削弱的版本,同時保持其他屬性不變。通過這種方式,模型可以學習到因果屬性變化與獎勵變化之間的對應關系。
中性增強則是為了提高模型對虛假屬性的不變性。其中,不相關查詢中性化(IQN)是一種有效的策略。它通過將一對回答重新 contextualize 到一個新的、不相關的查詢中,使得模型在訓練過程中學會忽略虛假屬性的差異。例如,兩個回答在原始查詢下可能因格式不同而被區別對待,但在新的不相關查詢下,這些格式差異變得無關緊要,從而迫使模型關注回答的因果內容。
此外,Crome 框架通過精心設計的損失函數來整合因果增強和中性增強數據。為了更直觀地理解因果增強和中性增強策略,下圖展示了 Crome 的核心增強策略。


可視化Crome的核心增強策略。 (上)因果增強:對于給定的查詢,利用基于大語言模型的反事實生成過程來改變某個特定的因果屬性,從而得到答案2。某些虛假屬性可能會隨之變化。獎勵模型(RM)通過偏好訓練(例如,如果A2是降級版本,則A1 ? A2),學習因果敏感性。 (下)無關查詢中性化:相同的答案對(A1, A2)被重新置于一個新且不相關的問題上下文中。它們原本的因果屬性變得實際上無效或不相關(灰色條)。獎勵模型通過等價標簽(A1 ≈ A2)進行訓練,學習在當前查詢不存在真實因果信號時對屬性差異保持不變性。這展示了IQN如何對那些隨C變化的虛假屬性(例如,響應長度隨響應清晰度變化)保持不變性。類似的不變性也通過從原始數據集中獲取的(A1, A2)對來實現,以增強對不隨C變化的通用虛假屬性(SP)的魯棒性
在訓練過程中,模型不僅需要在因果增強數據上表現出對因果屬性的敏感性,還需要在中性增強數據上展現出對虛假屬性的不變性。這種雙重約束使得 Crome 能夠在復雜的文本數據中精準地識別和利用因果信息,從而提高獎勵建模的魯棒性和準確性。
因果模型基礎
因果屬性與虛假屬性的定義
在獎勵建模的語境中,因果屬性是指那些真正決定回答質量的關鍵因素,它們與問題本身高度相關,并直接影響回答的價值和準確性。例如,一個回答的事實性、相關性和邏輯性都是典型的因果屬性。這些屬性的變化會直接導致回答質量的提升或下降。
與之相對的是虛假屬性,它們雖然可能在數據中與偏好或問題相關聯,但卻并不直接決定回答的質量。常見的虛假屬性包括回答的格式、長度、風格等。例如,一個回答可能因為采用了精美的排版而受到青睞,但這并不意味著其內容更具價值。虛假屬性的引入往往會使獎勵模型產生誤導,使其誤將形式上的優勢當作質量的標志。
屬性的識別方法
為了準確區分因果屬性和虛假屬性,研究者們采用了多種方法。其中,人工標注是一種直接且有效的方式。通過讓領域專家或經過訓練的標注者對回答進行多維度的評估,可以初步識別出哪些特征對質量有直接影響。然而,人工標注的成本較高且效率較低,因此研究者們進一步探索了自動化的方法。
統計分析提供了一種數據驅動的視角。通過分析人類偏好數據中的相關性模式,可以發現哪些特征與高質量回答頻繁共現。但這種方法存在一定的局限性,因為它可能混淆因果關系和相關性,將虛假屬性誤認為因果屬性。
大型語言模型(LLM)的引入為屬性識別帶來了新的突破。LLM 以其強大的語言理解和生成能力,能夠對回答進行深入分析,并挖掘出潛在的因果因素。例如,通過設計特定的提示(prompt),可以讓 LLM 輸出對回答質量各維度的評估,從而輔助識別因果屬性。這種方法結合了人工智慧和機器智能的優勢,既保證了準確性,又提高了效率。
在屬性識別的過程中,因果推斷理論和貝葉斯網絡等理論基礎發揮了重要作用。因果推斷理論強調對因果關系的識別和分析,幫助研究者從復雜的數據中提煉出真正的因果因素。貝葉斯網絡則通過構建概率圖模型,直觀地展示了不同屬性之間的依賴關系,為屬性的分類和識別提供了有力的支持。
屬性在 LLM 輸出中的表現形式
在 LLM 的輸出中,因果屬性和虛假屬性往往以不同的形式表現出來。例如,一個具有高度事實性的回答(因果屬性)會準確地引用相關領域的知識,提供具體的事實和數據支持。而另一個具有精美格式的回答(虛假屬性)則可能通過清晰的段落劃分、恰當的標題和列表等手段來吸引注意。
假設有一個問題詢問某種疾病的治療方法。一個因果屬性表現突出的回答會詳細列出各種治療方法的原理、適用范圍和可能的副作用,并引用權威的醫學研究來支持其觀點。而一個虛假屬性占優的回答則可能使用大量的加粗、斜體和顏色標注,使得頁面看起來整潔美觀,但其內容可能缺乏深度和準確性。

醫學診斷中的“禮貌偏差”
研究表明,當獎勵模型過于關注虛假屬性時,會導致模型在面對輕微的文本轉換時性能急劇下降。例如,在 reWordBench 基準測試中,一些獎勵模型在面對釋義或格式變化時,其準確率可能下降超過 30%。這凸顯了在獎勵建模中考慮因果屬性與虛假屬性的區別對于提高模型性能和魯棒性的關鍵作用。
因果模型的構建
為了更直觀地理解因果屬性和虛假屬性之間的關系,引入了一個概念因果圖(如下圖)。在這個圖中,查詢(Q)和答案(A)的因果屬性(C(A))共同決定了真實獎勵(R*),而虛假屬性(SP(A))雖然可能與偏好相關,但并不直接影響真實獎勵。通過這種方式,我們可以清晰地看到因果屬性在獎勵建模中的核心地位,以及虛假屬性可能帶來的干擾。

獎勵建模的概念因果圖
理論分析
Crome 框架的理論建立在一系列理想化模型假設之上。例如,假設因果屬性和虛假屬性都是布爾變量,即它們以二元狀態(存在或不存在)表現。這種簡化使得分析更加聚焦于核心機制,而不被復雜的變量類型所干擾。同時,理論分析假設獎勵函數是一個稀疏的二次多項式,僅依賴于因果屬性。這一假設反映了現實中的一個常見現象:獎勵往往由少數關鍵因素決定,而非所有可能的特征。
通過因果增強數據訓練的獎勵模型能夠更準確地識別因果獎勵決定因素。例如,在實驗數據中,經過因果增強訓練的模型在面對新的、未見過的數據時,能夠更好地泛化其對因果屬性的理解。訓練前后的模型性能對比驗證了因果增強數據的有效性:在因果屬性發生變化時,訓練后的模型能夠更精準地調整獎勵分數,而對虛假屬性的變化則表現得更為魯棒。
理論結果對實際應用具有重要的啟示。首先,因果增強數據的設計和生成需要盡可能貼近實際場景中的因果關系。這意味著在生成反事實示例時,要確保因果屬性的改變是合理且符合邏輯的。其次,理想化假設在現實中可能難以完全滿足,例如虛假屬性可能與因果屬性存在一定的關聯。因此,在實際應用中需要對理論方法進行適當的調整和優化,以應對復雜多變的實際情況。例如,在實際應用中,可以通過增加數據多樣性、采用更復雜的模型結構等方法來緩解假設與現實之間的偏差。
與相關工作的對比分析
對比維度
Crome 框架與其他相關方法(如 RRM、PairPM 等)在多個維度上存在顯著差異。在方法原理上,Crome 強調因果屬性與虛假屬性的分離,這種分離使得模型能夠更精準地識別真正影響質量的因素。例如,RRM 更側重于通過非上下文相關的數據增強來提升模型的魯棒性,而 Crome 則通過因果模型深入挖掘文本的內在因果結構。
在數據增強策略上,Crome 的因果增強和中性增強策略顯得更為精細和有針對性。例如,因果增強通過生成反事實示例來強化因果屬性的學習,而 RRM 的非上下文相關增強則更多地關注于增加數據的多樣性。這兩種策略各有優劣:Crome 的方法在提升因果屬性識別能力方面表現突出,但可能需要更多的計算資源;RRM 的方法則更為高效,但在處理復雜的因果關系時可能略顯不足。
在模型訓練目標上,Crome 專注于提高模型對因果屬性的敏感性和對虛假屬性的不變性。這種目標使得 Crome 在面對虛假屬性的干擾時能夠保持穩定的表現。相比之下,其他方法可能更關注整體性能的提升或特定場景下的優化。例如,PairPM 更強調通過成對比較來直接預測偏好,這在某些場景下可以更快地提升模型的準確率,但在處理因果關系時可能不夠深入。
在適用場景上,Crome 在安全、推理等需要高度魯棒性的任務中展現出明顯優勢。例如,在 WildGuardTest 數據集上,Crome 能夠顯著降低攻擊成功率,同時保持較低的拒絕回答率。而在其他對因果關系要求較低的場景中,可能更適合采用計算成本較低的方法。
在具體技術細節上,Crome 的因果增強通過 LLM 生成反事實示例,這些示例在因果屬性上進行了精確的升級或降級,同時保持其他屬性不變。例如,Crome 可以生成一個在事實性上被削弱但格式保持不變的回答,從而讓模型學習到事實性對獎勵的影響。而 RRM 的非上下文相關增強則可能生成一個與原始回答在多個屬性上都不同的示例,這種方法雖然增加了數據的多樣性,但可能稀釋了因果屬性的學習效果。
對比呈現方式
通過表格形式可以直觀地呈現 Crome 框架與其他方法在各個維度上的對比結果。例如:
對比維度 | Crome 框架 | RRM 方法 | PairPM 方法 |
方法原理 | 基于因果模型分離因果屬性與虛假屬性 | 非上下文相關的數據增強 | 通過成對比較直接預測偏好 |
數據增強策略 | 因果增強和中性增強 | 非上下文相關增強 | 成對比較示例 |
模型訓練目標 | 提高對因果屬性的敏感性和對虛假屬性的不變性 | 提升模型的整體魯棒性 | 提高成對比較的準確率 |
適用場景 | 安全、推理等需要高度魯棒性的任務 | 對因果關系要求較低的場景 | 一般 RLHF 場景 |
技術細節 | LLM 生成反事實示例,精確控制因果屬性變化 | 隨機生成非上下文相關示例 | 直接使用成對比較數據 |
優勢 | 更精準地識別因果屬性,對虛假屬性魯棒性強 | 數據增強效率高,適用于大規模數據 | 訓練目標直接與偏好預測對齊 |
局限性 | 計算成本較高,對 LLM 生成質量依賴 | 對因果關系的處理較弱 | 對因果屬性的學習可能不深入 |
Crome 框架
為了更清晰地展示 Crome 框架的實現過程,我們可以通過下圖來了解整個數據增強和訓練流程。

Chrome數據增強流程。以原始偏好數據(D``pref``)為基礎,生成以下內容: (1) 因果增強數據(D``causal``)。通過對特定屬性進行屬性升級或降級,強化對真實質量驅動因素的敏感性;(2) 中性增強數據(D``neutral``)。通過使用無關查詢中性樣本(帶有平局標簽)來訓練對虛假特征的不變性。在可選過濾之后,獎勵模型在原始數據集和增強數據集的組合上進行訓練。
因果增強
因果增強是 Crome 框架的核心組件之一,其目標是通過生成反事實示例來強化模型對因果屬性的敏感性。在這個過程中,大型語言模型(LLM)扮演了關鍵角色。LLM 會依據具體規則和算法邏輯,確定要升級或降級的因果屬性。例如,對于一個原始回答,LLM 可能會分析其在事實性、相關性和邏輯性等維度的表現,并結合問題的背景和要求,精準定位需要調整的屬性。
為了確保生成示例的準確性和相關性,Crome 框架采取了一系列措施。首先,生成的反事實示例會經過多維度的評估,包括內容的準確性、邏輯的連貫性和因果屬性的改變程度等。其次,這些示例會與原始數據進行對比驗證,以確保它們在其他非目標屬性上保持一致。例如,如果目標是改變回答的事實性,那么生成的回答不應在格式或風格上出現顯著差異。
因果增強在不同場景下的應用展現了其靈活性和有效性。例如,在提升答案的事實性時,LLM 可能會引入更多的權威引用和具體數據;在增強相關性時,可能會調整回答的結構,使其更緊密地圍繞問題的核心展開。以下是一個具體的示例:
假設原始回答是關于全球變暖的潛在原因,其因果屬性 “準確性” 表現良好,但 “完整性” 較弱。LLM 會分析該回答的內容,識別出其在完整性方面的不足之處,例如缺少對某些關鍵因素的具體機制的解釋。然后,LLM 會生成一個新的回答,其中增加了對這些關鍵因素的詳細描述,從而提升完整性這一因果屬性,同時確保其他屬性(如格式和風格)保持不變。通過這種方式,模型可以學習到完整性提升對獎勵的正向影響。
中性增強
中性增強是 Crome 框架的另一個關鍵組件,其目標是提高模型對虛假屬性的不變性。中性增強主要通過兩種策略實現:不相關查詢中性化(IQN)和其他中性增強方法(如因果對齊中性化)。
IQN 的核心思想是通過改變查詢的上下文,使得原本可能影響獎勵判斷的虛假屬性變得無關緊要。具體來說,Crome 會將一對回答重新 contextualize 到一個新的、不相關的上下文中。在這個新的上下文中,回答的虛假屬性差異(如格式或風格)不再與查詢相關,因此模型需要學會忽略這些差異,轉而關注回答的因果內容。
因果對齊中性化則通過調整回答的因果屬性,使其與另一個高質量回答對齊,同時保留其原始的虛假屬性。例如,給定一個因果屬性較弱但虛假屬性較強的回答,Crome 會嘗試提升其因果屬性,使其與另一個高質量回答相當,同時保持其虛假屬性不變。這樣,模型可以學習到即使在虛假屬性存在的情況下,因果屬性仍然是決定獎勵的關鍵因素。
不同中性增強方法各有優缺點。IQN 的優勢在于其簡單性和廣泛適用性,但可能在某些情況下無法完全消除虛假屬性的影響。因果對齊中性化則更注重因果屬性的精準對齊,但在生成過程中可能需要更多的計算資源和復雜的調整。這些方法在不同情況下的適用性取決于具體的應用場景和可用資源。以下是一個具體的示例:
假設有一個回答因其格式精美(虛假屬性)而被高度評價,但其內容的邏輯性(因果屬性)較弱。通過因果對齊中性化,Crome 會生成一個新的回答,其中邏輯性得到了顯著提升,而格式保持不變。這樣,模型在訓練過程中會學習到邏輯性的重要性,而不會被格式所干擾。
實驗設計與評估指標
為了全面評估 Crome 框架的性能,研究者們設計了一系列實驗,并采用了多個基準數據集和評估指標。這些數據集包括 RewardBench、WildGuardTest 和 GSM8k,涵蓋了聊天、推理、安全等多個領域。評估指標則包括平均準確率、攻擊成功率、拒絕回答率等,期望從多個角度衡量模型的性能和魯棒性。
Best-of-N 推理設置在評估中扮演了重要角色。通過這種設置,研究者們能夠模擬在實際應用中從多個候選回答中選擇最佳回答的場景。這不僅考驗了模型在單次判斷中的準確性,還考察了其在面對大量數據時的穩定性和可靠性。通過 Best-of-N 設置,可以更準確地衡量模型在面對罕見或長尾虛假屬性時的魯棒性。
在實驗方法細節方面,Crome 框架采用了多個先進的 LLM 模型和基座模型。例如,Gemini 2.0 Flash 被用于生成反事實示例,而 Gemma-2-9B-IT、Qwen2.5-7B 和 Gemma-2-2B 則作為獎勵模型的基座模型。數據集構建過程嚴謹,原始數據集 UltraFeedback 被用作基礎,通過特定的提示模板引導 LLM 生成因果增強和中性增強數據。模型訓練的超參數設置經過精細調整,使用了 AdamW 優化器、合理的學習率、批量大小和余弦學習率調度等,以確保模型的高效訓練。整個訓練過程在 8 塊 NVIDIA A100 80GB GPU 上進行,耗時約 10-16 小時。
實驗結果與分析
實驗結果可視化
在實驗結果的可視化方面,Crome 框架展現了顯著的優勢。通過柱狀圖可以直觀地看到,Crome 在不同類別(聊天、聊天-難、安全、推理)上的準確率均優于基線模型。例如,在安全類別上,Crome 的準確率相比基線模型提升了約 13%,在推理類別上提升了約 7%。這些數據充分證明了 Crome 在關鍵領域的卓越性能(見下表)。

在獎勵基準(RewardBench)上對成對偏好模型和Bradley-Terry獎勵模型使用不同基礎模型訓練的性能比較
在 reWordBench 基準測試中,Crome 的魯棒性表現尤為突出。折線圖清晰地展示了 Crome 在面對各種語義保持轉換(如釋義、添加不相關文本、代碼等)時的排名準確率變化趨勢。與基線模型相比,Crome 的排名準確率在大多數轉換類型上都保持在較高水平,尤其是在面對釋義和格式變化時,其準確率比其他模型高出近 10%(見下圖)。
橫軸為不同的語義保持轉換類型,縱軸為排名準確率(%),展示 Crome 在各種轉換類型上的表現優于基線模型 RM 和 RRM
在 Best-of-N 設置下,Crome 的性能同樣令人印象深刻。對比圖表顯示,隨著 N 值的增大,Crome 的準確率和選擇最佳響應的成功率依然保持穩定增長。這表明 Crome 在處理大量候選回答時,能夠更有效地篩選出真正高質量的回答,而不會被虛假屬性所干擾(見下圖)。

展示 Crome 在從 RewardBench 到 reWordBench 的排名準確率變化百分比,表明 Crome 的排名準確率下降幅度最小

最佳N次結果:在WildGuardTest上的ASR降低情況

在GSM8K數據集上的最佳N選一推理評估
不同中性增強策略的影響
進一步分析不同中性增強策略對 Crome 性能的影響,可以發現 Crome-IQN、Crome-PARA 和 Crome-CAN 等變體在不同數據集上的表現各有千秋。例如,在 RewardBench 上,Crome-IQN 憑借其簡單而有效的不相關查詢中性化策略,取得了最高的準確率;而在 reWordBench 上,Crome-CAN 則通過精準的因果對齊中性化方法展現了更強的魯棒性。這種多樣性為實際應用中根據具體需求選擇合適的中性增強策略提供了靈活性。以下是一些具體的數據:
- 在 RewardBench 數據集上,Crome-IQN 的平均準確率達到了 94.39%,相比基線模型 RRM 提升了 7.12%。
- 在 reWordBench 數據集上,Crome-CAN 的平均排名準確率達到了 72.71%,相比基線模型 RRM 提升了 12.5%。
以下兩圖分別展示了 Crome 在不同中性增強策略下的平均性能和在 RewardBench 不同子集上的評估結果。通過這些圖表,我們可以看到不同策略在不同場景下的表現差異,從而更好地理解如何選擇合適的中性增強方法。

Crome在不同中性增強策略訓練下在RewardBench和reWordBench上的平均表現

對RewardBench不同子集上中性增強變體的評估
一點討論
實際應用指導內容
在實際應用中,Crome 框架的部署需要根據不同的大型語言模型和任務需求進行精細調整。例如,在不同規模的 LLM 上,數據增強的比例和訓練超參數可能需要重新校準。對于較小的模型,可能需要減少增強數據的比例以避免過擬合;而對于較大的模型,則可以適當增加數據量以充分利用其強大的學習能力。
數據質量問題也是實際應用中的一個重要挑戰。數據噪聲和數據不平衡可能對 Crome 框架的性能產生顯著影響。為了解決這些問題,可以采取數據預處理措施,如清洗噪聲數據、平衡數據分布,以及采用增強學習策略,如動態調整學習率和批量大小等。
將 Crome 框架與現有的模型評估和對齊流程相結合是實現高效模型訓練的關鍵。例如,在現有的 RLHF 流程中,可以在人類反饋數據收集之后、模型訓練之前嵌入 Crome 的因果增強和中性增強策略。這樣可以在不大幅改變現有流程的情況下,顯著提升模型的魯棒性和對齊效果。
Crome 的局限性
盡管 Crome 框架在提高獎勵模型魯棒性方面取得了較好的試驗數據,但其仍存在一些局限性。首先,理想化假設在實際應用中可能難以完全滿足。例如,布爾屬性的假設忽略了屬性可能存在的多級或連續狀態。其次,數據增強的可擴展性與成本也是一個值得關注的問題。生成高質量的反事實示例需要大量的計算資源和精心設計的提示,這在大規模應用中可能成為瓶頸。此外,Crome 框架對新型虛假屬性的泛化能力仍有待提高,尤其是在面對完全未見過的虛假屬性時。最后,LLM 生成反事實的保真度可能因模型的局限性而受到影響,進而影響增強數據的質量。
針對這些局限性,未來的改進方向包括擴展理論框架以涵蓋更復雜的屬性類型,開發更高效的數據增強策略以降低計算成本,進一步探索對新興虛假屬性的泛化能力,以及提升 LLM 在反事實生成中的保真度。這些研究將有助于推動因果魯棒獎勵建模技術的進一步發展和應用。
總結
本文介紹了一種新的框架 Crome(Causally Robust Reward Modeling),為解決獎勵模型的獎勵欺騙問題提供了一種創新而有效的方法。Crome 通過引入因果模型和精心設計的數據增強策略,為解決 RLHF 中的獎勵欺騙問題提供了新的視角和解決方案。以下是文章的核心觀點和總結:
Crome 框架的核心貢獻
1. 因果增強和中性增強:Crome 提出了兩種關鍵的數據增強策略。因果增強通過生成在特定因果屬性上有所變化的問答對,提高了模型對這些屬性變化的敏感性。中性增強則通過生成主要在虛假屬性上有所變化的問答對標記對,增強了模型對這些屬性變化的不變性。這些策略使得 Crome 能夠精準地區分因果屬性和虛假屬性,從而提升獎勵建模的魯棒性和準確性。
2. 因果模型的應用:Crome 基于因果模型,強調對因果關系的識別和分析。它通過構建因果圖,清晰地展示了因果屬性和虛假屬性在獎勵建模中的作用。這種因果視角有助于提高模型的魯棒性,也為理解模型行為提供了更深入的理論基礎。
通過一系列實驗驗證了 Crome 框架的有效性。在 RewardBench、WildGuardTest 和 GSM8k 等多個基準數據集上,Crome 在平均準確率、攻擊成功率和拒絕回答率等關鍵指標上均優于基線模型。特別是在安全和推理任務中,Crome 展現出了顯著的性能提升,證明了其在實際應用中的潛力和價值。
Crome 框架可以輕松集成到現有的 RLHF 流程中,通過在人類反饋數據收集后和模型訓練前嵌入數據增強策略,顯著提升模型的魯棒性和對齊效果。這對于確保大型語言模型(LLM)的安全和有效部署具有重要意義。Crome 的成功不僅體現在實驗結果上,更為AI應用落地時的獎勵建模提供了新的思路和方法論。它強調了因果關系在建模復雜文本數據中的重要性,并展示了如何通過系統的設計和優化來克服虛假屬性的干擾。Crome 框架是一個極具前景的工具。






























