精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

終結獎勵欺騙?Google Deepmind 提出 Crome 框架

人工智能
大型語言模型的對齊問題一直困擾著人工智能領域。獎勵欺騙問題使模型基于表面特征賦予高分,導致策略與高質量行為脫節。Google DeepMind 提出的 Crome 框架,通過因果增強和中性增強策略,有效提升了獎勵模型的魯棒性和準確性。

大家好,我是肆〇柒。大型語言模型(LLM)的對齊問題一直是人工智能領域的熱門話題。在將這些強大的模型應用于現實場景時,確保它們的行為能夠精準地與人類的偏好和價值觀對齊至關重要。為了實現這一目標,研究者們提出了強化學習從人類反饋(RLHF)這一范式。在 RLHF 的框架下,獎勵模型(RM)作為連接人類偏好與模型行為的橋梁,承擔著至關重要的角色。RM 的任務是從人類提供的反饋數據中學習,為模型的輸出賦予一個獎勵分數,從而引導模型的行為朝著更符合人類期望的方向發展。獎勵模型(RM)作為強化學習從人類反饋(RLHF)中的關鍵組件,其主要任務是從人類的偏好數據中學習并指導模型的行為。

然而,現有的 RM 常常受到獎勵欺騙問題的困擾,即模型可能基于一些表面的、非因果的特征來賦予高分,從而導致策略與真正的高質量行為脫節。這一問題源于 RM 在訓練過程中,往往會不自覺地依賴于一些表面的、與質量無關的特征,例如回答的長度、格式或者風格,而忽略了真正決定回答質量的核心因素。這種對虛假屬性的依賴使得 RM 易受數據中的噪聲和偏差影響,導致模型的魯棒性和泛化能力大打折扣,進而影響了整個 RLHF 系統的性能和可靠性。

為了解決這一難題,由 Google DeepMind 及其合作機構提出了 Crome 框架。Crome 通過引入因果模型,其設計目標就是提高 RM 對真正影響回答質量的因果屬性的敏感性,同時減少對虛假屬性的依賴,從而提升模型的魯棒性和對齊效果。

為了更清晰地展示 Crome 框架的實現過程,我們可以通過下圖來了解整個數據增強和訓練流程。在這個流程中,原始的問答對(Q, A1, A2)首先通過一個 oracle LLM 識別出因果屬性(C(A))。然后,基于這些因果屬性,生成降級的 A1 和升級的 A2 回答,形成因果增強數據。接下來,通過不相關查詢中性化(IQN)生成中性增強數據。這些數據經過驗證和過濾后,與原始數據結合,用于訓練獎勵模型(RM),從而增強其魯棒性。

Crome 數據增強與訓練Pipeline

Crome 框架的核心思想

Crome 框架的核心思想是基于因果模型來指導獎勵建模,以提高模型對因果屬性的敏感性和對虛假屬性的不變性。為了實現這一目標,Crome 引入了一種新穎的數據增強策略,包括因果增強和中性增強。

因果增強通過生成反事實示例來強化模型對因果屬性的敏感性。具體來說,對于一個原始回答,Crome 會利用 LLM 生成其在特定因果屬性上的升級或降級版本。例如,如果原始回答在事實性上表現較好,Crome 可能會生成一個事實性被削弱的版本,同時保持其他屬性不變。通過這種方式,模型可以學習到因果屬性變化與獎勵變化之間的對應關系。

中性增強則是為了提高模型對虛假屬性的不變性。其中,不相關查詢中性化(IQN)是一種有效的策略。它通過將一對回答重新 contextualize 到一個新的、不相關的查詢中,使得模型在訓練過程中學會忽略虛假屬性的差異。例如,兩個回答在原始查詢下可能因格式不同而被區別對待,但在新的不相關查詢下,這些格式差異變得無關緊要,從而迫使模型關注回答的因果內容。

此外,Crome 框架通過精心設計的損失函數來整合因果增強和中性增強數據。為了更直觀地理解因果增強和中性增強策略,下圖展示了 Crome 的核心增強策略。

可視化Crome的核心增強策略。 (上)因果增強:對于給定的查詢,利用基于大語言模型的反事實生成過程來改變某個特定的因果屬性,從而得到答案2。某些虛假屬性可能會隨之變化。獎勵模型(RM)通過偏好訓練(例如,如果A2是降級版本,則A1 ? A2),學習因果敏感性。 (下)無關查詢中性化:相同的答案對(A1, A2)被重新置于一個新且不相關的問題上下文中。它們原本的因果屬性變得實際上無效或不相關(灰色條)。獎勵模型通過等價標簽(A1 ≈ A2)進行訓練,學習在當前查詢不存在真實因果信號時對屬性差異保持不變性。這展示了IQN如何對那些隨C變化的虛假屬性(例如,響應長度隨響應清晰度變化)保持不變性。類似的不變性也通過從原始數據集中獲取的(A1, A2)對來實現,以增強對不隨C變化的通用虛假屬性(SP)的魯棒性

在訓練過程中,模型不僅需要在因果增強數據上表現出對因果屬性的敏感性,還需要在中性增強數據上展現出對虛假屬性的不變性。這種雙重約束使得 Crome 能夠在復雜的文本數據中精準地識別和利用因果信息,從而提高獎勵建模的魯棒性和準確性。

因果模型基礎

因果屬性與虛假屬性的定義

在獎勵建模的語境中,因果屬性是指那些真正決定回答質量的關鍵因素,它們與問題本身高度相關,并直接影響回答的價值和準確性。例如,一個回答的事實性、相關性和邏輯性都是典型的因果屬性。這些屬性的變化會直接導致回答質量的提升或下降。

與之相對的是虛假屬性,它們雖然可能在數據中與偏好或問題相關聯,但卻并不直接決定回答的質量。常見的虛假屬性包括回答的格式、長度、風格等。例如,一個回答可能因為采用了精美的排版而受到青睞,但這并不意味著其內容更具價值。虛假屬性的引入往往會使獎勵模型產生誤導,使其誤將形式上的優勢當作質量的標志。

屬性的識別方法

為了準確區分因果屬性和虛假屬性,研究者們采用了多種方法。其中,人工標注是一種直接且有效的方式。通過讓領域專家或經過訓練的標注者對回答進行多維度的評估,可以初步識別出哪些特征對質量有直接影響。然而,人工標注的成本較高且效率較低,因此研究者們進一步探索了自動化的方法。

統計分析提供了一種數據驅動的視角。通過分析人類偏好數據中的相關性模式,可以發現哪些特征與高質量回答頻繁共現。但這種方法存在一定的局限性,因為它可能混淆因果關系和相關性,將虛假屬性誤認為因果屬性。

大型語言模型(LLM)的引入為屬性識別帶來了新的突破。LLM 以其強大的語言理解和生成能力,能夠對回答進行深入分析,并挖掘出潛在的因果因素。例如,通過設計特定的提示(prompt),可以讓 LLM 輸出對回答質量各維度的評估,從而輔助識別因果屬性。這種方法結合了人工智慧和機器智能的優勢,既保證了準確性,又提高了效率。

在屬性識別的過程中,因果推斷理論和貝葉斯網絡等理論基礎發揮了重要作用。因果推斷理論強調對因果關系的識別和分析,幫助研究者從復雜的數據中提煉出真正的因果因素。貝葉斯網絡則通過構建概率圖模型,直觀地展示了不同屬性之間的依賴關系,為屬性的分類和識別提供了有力的支持。

屬性在 LLM 輸出中的表現形式

在 LLM 的輸出中,因果屬性和虛假屬性往往以不同的形式表現出來。例如,一個具有高度事實性的回答(因果屬性)會準確地引用相關領域的知識,提供具體的事實和數據支持。而另一個具有精美格式的回答(虛假屬性)則可能通過清晰的段落劃分、恰當的標題和列表等手段來吸引注意。

假設有一個問題詢問某種疾病的治療方法。一個因果屬性表現突出的回答會詳細列出各種治療方法的原理、適用范圍和可能的副作用,并引用權威的醫學研究來支持其觀點。而一個虛假屬性占優的回答則可能使用大量的加粗、斜體和顏色標注,使得頁面看起來整潔美觀,但其內容可能缺乏深度和準確性。

醫學診斷中的“禮貌偏差”

研究表明,當獎勵模型過于關注虛假屬性時,會導致模型在面對輕微的文本轉換時性能急劇下降。例如,在 reWordBench 基準測試中,一些獎勵模型在面對釋義或格式變化時,其準確率可能下降超過 30%。這凸顯了在獎勵建模中考慮因果屬性與虛假屬性的區別對于提高模型性能和魯棒性的關鍵作用。

因果模型的構建

為了更直觀地理解因果屬性和虛假屬性之間的關系,引入了一個概念因果圖(如下圖)。在這個圖中,查詢(Q)和答案(A)的因果屬性(C(A))共同決定了真實獎勵(R*),而虛假屬性(SP(A))雖然可能與偏好相關,但并不直接影響真實獎勵。通過這種方式,我們可以清晰地看到因果屬性在獎勵建模中的核心地位,以及虛假屬性可能帶來的干擾。

獎勵建模的概念因果圖

理論分析

Crome 框架的理論建立在一系列理想化模型假設之上。例如,假設因果屬性和虛假屬性都是布爾變量,即它們以二元狀態(存在或不存在)表現。這種簡化使得分析更加聚焦于核心機制,而不被復雜的變量類型所干擾。同時,理論分析假設獎勵函數是一個稀疏的二次多項式,僅依賴于因果屬性。這一假設反映了現實中的一個常見現象:獎勵往往由少數關鍵因素決定,而非所有可能的特征。

通過因果增強數據訓練的獎勵模型能夠更準確地識別因果獎勵決定因素。例如,在實驗數據中,經過因果增強訓練的模型在面對新的、未見過的數據時,能夠更好地泛化其對因果屬性的理解。訓練前后的模型性能對比驗證了因果增強數據的有效性:在因果屬性發生變化時,訓練后的模型能夠更精準地調整獎勵分數,而對虛假屬性的變化則表現得更為魯棒。

理論結果對實際應用具有重要的啟示。首先,因果增強數據的設計和生成需要盡可能貼近實際場景中的因果關系。這意味著在生成反事實示例時,要確保因果屬性的改變是合理且符合邏輯的。其次,理想化假設在現實中可能難以完全滿足,例如虛假屬性可能與因果屬性存在一定的關聯。因此,在實際應用中需要對理論方法進行適當的調整和優化,以應對復雜多變的實際情況。例如,在實際應用中,可以通過增加數據多樣性、采用更復雜的模型結構等方法來緩解假設與現實之間的偏差。

與相關工作的對比分析

對比維度

Crome 框架與其他相關方法(如 RRM、PairPM 等)在多個維度上存在顯著差異。在方法原理上,Crome 強調因果屬性與虛假屬性的分離,這種分離使得模型能夠更精準地識別真正影響質量的因素。例如,RRM 更側重于通過非上下文相關的數據增強來提升模型的魯棒性,而 Crome 則通過因果模型深入挖掘文本的內在因果結構。

在數據增強策略上,Crome 的因果增強和中性增強策略顯得更為精細和有針對性。例如,因果增強通過生成反事實示例來強化因果屬性的學習,而 RRM 的非上下文相關增強則更多地關注于增加數據的多樣性。這兩種策略各有優劣:Crome 的方法在提升因果屬性識別能力方面表現突出,但可能需要更多的計算資源;RRM 的方法則更為高效,但在處理復雜的因果關系時可能略顯不足。

在模型訓練目標上,Crome 專注于提高模型對因果屬性的敏感性和對虛假屬性的不變性。這種目標使得 Crome 在面對虛假屬性的干擾時能夠保持穩定的表現。相比之下,其他方法可能更關注整體性能的提升或特定場景下的優化。例如,PairPM 更強調通過成對比較來直接預測偏好,這在某些場景下可以更快地提升模型的準確率,但在處理因果關系時可能不夠深入。

在適用場景上,Crome 在安全、推理等需要高度魯棒性的任務中展現出明顯優勢。例如,在 WildGuardTest 數據集上,Crome 能夠顯著降低攻擊成功率,同時保持較低的拒絕回答率。而在其他對因果關系要求較低的場景中,可能更適合采用計算成本較低的方法。

在具體技術細節上,Crome 的因果增強通過 LLM 生成反事實示例,這些示例在因果屬性上進行了精確的升級或降級,同時保持其他屬性不變。例如,Crome 可以生成一個在事實性上被削弱但格式保持不變的回答,從而讓模型學習到事實性對獎勵的影響。而 RRM 的非上下文相關增強則可能生成一個與原始回答在多個屬性上都不同的示例,這種方法雖然增加了數據的多樣性,但可能稀釋了因果屬性的學習效果。

對比呈現方式

通過表格形式可以直觀地呈現 Crome 框架與其他方法在各個維度上的對比結果。例如:

對比維度

Crome 框架

RRM 方法

PairPM 方法

方法原理

基于因果模型分離因果屬性與虛假屬性

非上下文相關的數據增強

通過成對比較直接預測偏好

數據增強策略

因果增強和中性增強

非上下文相關增強

成對比較示例

模型訓練目標

提高對因果屬性的敏感性和對虛假屬性的不變性

提升模型的整體魯棒性

提高成對比較的準確率

適用場景

安全、推理等需要高度魯棒性的任務

對因果關系要求較低的場景

一般 RLHF 場景

技術細節

LLM 生成反事實示例,精確控制因果屬性變化

隨機生成非上下文相關示例

直接使用成對比較數據

優勢

更精準地識別因果屬性,對虛假屬性魯棒性強

數據增強效率高,適用于大規模數據

訓練目標直接與偏好預測對齊

局限性

計算成本較高,對 LLM 生成質量依賴

對因果關系的處理較弱

對因果屬性的學習可能不深入

Crome 框架

為了更清晰地展示 Crome 框架的實現過程,我們可以通過下圖來了解整個數據增強和訓練流程。

Chrome數據增強流程。以原始偏好數據(D``pref``)為基礎,生成以下內容: (1) 因果增強數據(D``causal``)。通過對特定屬性進行屬性升級或降級,強化對真實質量驅動因素的敏感性;(2) 中性增強數據(D``neutral``)。通過使用無關查詢中性樣本(帶有平局標簽)來訓練對虛假特征的不變性。在可選過濾之后,獎勵模型在原始數據集和增強數據集的組合上進行訓練。

因果增強

因果增強是 Crome 框架的核心組件之一,其目標是通過生成反事實示例來強化模型對因果屬性的敏感性。在這個過程中,大型語言模型(LLM)扮演了關鍵角色。LLM 會依據具體規則和算法邏輯,確定要升級或降級的因果屬性。例如,對于一個原始回答,LLM 可能會分析其在事實性、相關性和邏輯性等維度的表現,并結合問題的背景和要求,精準定位需要調整的屬性。

為了確保生成示例的準確性和相關性,Crome 框架采取了一系列措施。首先,生成的反事實示例會經過多維度的評估,包括內容的準確性、邏輯的連貫性和因果屬性的改變程度等。其次,這些示例會與原始數據進行對比驗證,以確保它們在其他非目標屬性上保持一致。例如,如果目標是改變回答的事實性,那么生成的回答不應在格式或風格上出現顯著差異。

因果增強在不同場景下的應用展現了其靈活性和有效性。例如,在提升答案的事實性時,LLM 可能會引入更多的權威引用和具體數據;在增強相關性時,可能會調整回答的結構,使其更緊密地圍繞問題的核心展開。以下是一個具體的示例:

假設原始回答是關于全球變暖的潛在原因,其因果屬性 “準確性” 表現良好,但 “完整性” 較弱。LLM 會分析該回答的內容,識別出其在完整性方面的不足之處,例如缺少對某些關鍵因素的具體機制的解釋。然后,LLM 會生成一個新的回答,其中增加了對這些關鍵因素的詳細描述,從而提升完整性這一因果屬性,同時確保其他屬性(如格式和風格)保持不變。通過這種方式,模型可以學習到完整性提升對獎勵的正向影響。

中性增強

中性增強是 Crome 框架的另一個關鍵組件,其目標是提高模型對虛假屬性的不變性。中性增強主要通過兩種策略實現:不相關查詢中性化(IQN)和其他中性增強方法(如因果對齊中性化)。

IQN 的核心思想是通過改變查詢的上下文,使得原本可能影響獎勵判斷的虛假屬性變得無關緊要。具體來說,Crome 會將一對回答重新 contextualize 到一個新的、不相關的上下文中。在這個新的上下文中,回答的虛假屬性差異(如格式或風格)不再與查詢相關,因此模型需要學會忽略這些差異,轉而關注回答的因果內容。

因果對齊中性化則通過調整回答的因果屬性,使其與另一個高質量回答對齊,同時保留其原始的虛假屬性。例如,給定一個因果屬性較弱但虛假屬性較強的回答,Crome 會嘗試提升其因果屬性,使其與另一個高質量回答相當,同時保持其虛假屬性不變。這樣,模型可以學習到即使在虛假屬性存在的情況下,因果屬性仍然是決定獎勵的關鍵因素。

不同中性增強方法各有優缺點。IQN 的優勢在于其簡單性和廣泛適用性,但可能在某些情況下無法完全消除虛假屬性的影響。因果對齊中性化則更注重因果屬性的精準對齊,但在生成過程中可能需要更多的計算資源和復雜的調整。這些方法在不同情況下的適用性取決于具體的應用場景和可用資源。以下是一個具體的示例:

假設有一個回答因其格式精美(虛假屬性)而被高度評價,但其內容的邏輯性(因果屬性)較弱。通過因果對齊中性化,Crome 會生成一個新的回答,其中邏輯性得到了顯著提升,而格式保持不變。這樣,模型在訓練過程中會學習到邏輯性的重要性,而不會被格式所干擾。

實驗設計與評估指標

為了全面評估 Crome 框架的性能,研究者們設計了一系列實驗,并采用了多個基準數據集和評估指標。這些數據集包括 RewardBench、WildGuardTest 和 GSM8k,涵蓋了聊天、推理、安全等多個領域。評估指標則包括平均準確率、攻擊成功率、拒絕回答率等,期望從多個角度衡量模型的性能和魯棒性。

Best-of-N 推理設置在評估中扮演了重要角色。通過這種設置,研究者們能夠模擬在實際應用中從多個候選回答中選擇最佳回答的場景。這不僅考驗了模型在單次判斷中的準確性,還考察了其在面對大量數據時的穩定性和可靠性。通過 Best-of-N 設置,可以更準確地衡量模型在面對罕見或長尾虛假屬性時的魯棒性。

在實驗方法細節方面,Crome 框架采用了多個先進的 LLM 模型和基座模型。例如,Gemini 2.0 Flash 被用于生成反事實示例,而 Gemma-2-9B-IT、Qwen2.5-7B 和 Gemma-2-2B 則作為獎勵模型的基座模型。數據集構建過程嚴謹,原始數據集 UltraFeedback 被用作基礎,通過特定的提示模板引導 LLM 生成因果增強和中性增強數據。模型訓練的超參數設置經過精細調整,使用了 AdamW 優化器、合理的學習率、批量大小和余弦學習率調度等,以確保模型的高效訓練。整個訓練過程在 8 塊 NVIDIA A100 80GB GPU 上進行,耗時約 10-16 小時。

實驗結果與分析

實驗結果可視化

在實驗結果的可視化方面,Crome 框架展現了顯著的優勢。通過柱狀圖可以直觀地看到,Crome 在不同類別(聊天、聊天-難、安全、推理)上的準確率均優于基線模型。例如,在安全類別上,Crome 的準確率相比基線模型提升了約 13%,在推理類別上提升了約 7%。這些數據充分證明了 Crome 在關鍵領域的卓越性能(見下表)。

在獎勵基準(RewardBench)上對成對偏好模型和Bradley-Terry獎勵模型使用不同基礎模型訓練的性能比較

在 reWordBench 基準測試中,Crome 的魯棒性表現尤為突出。折線圖清晰地展示了 Crome 在面對各種語義保持轉換(如釋義、添加不相關文本、代碼等)時的排名準確率變化趨勢。與基線模型相比,Crome 的排名準確率在大多數轉換類型上都保持在較高水平,尤其是在面對釋義和格式變化時,其準確率比其他模型高出近 10%(見下圖)。

橫軸為不同的語義保持轉換類型,縱軸為排名準確率(%),展示 Crome 在各種轉換類型上的表現優于基線模型 RM 和 RRM

在 Best-of-N 設置下,Crome 的性能同樣令人印象深刻。對比圖表顯示,隨著 N 值的增大,Crome 的準確率和選擇最佳響應的成功率依然保持穩定增長。這表明 Crome 在處理大量候選回答時,能夠更有效地篩選出真正高質量的回答,而不會被虛假屬性所干擾(見下圖)。

展示 Crome 在從 RewardBench 到 reWordBench 的排名準確率變化百分比,表明 Crome 的排名準確率下降幅度最小

最佳N次結果:在WildGuardTest上的ASR降低情況

在GSM8K數據集上的最佳N選一推理評估

不同中性增強策略的影響

進一步分析不同中性增強策略對 Crome 性能的影響,可以發現 Crome-IQN、Crome-PARA 和 Crome-CAN 等變體在不同數據集上的表現各有千秋。例如,在 RewardBench 上,Crome-IQN 憑借其簡單而有效的不相關查詢中性化策略,取得了最高的準確率;而在 reWordBench 上,Crome-CAN 則通過精準的因果對齊中性化方法展現了更強的魯棒性。這種多樣性為實際應用中根據具體需求選擇合適的中性增強策略提供了靈活性。以下是一些具體的數據:

  • 在 RewardBench 數據集上,Crome-IQN 的平均準確率達到了 94.39%,相比基線模型 RRM 提升了 7.12%。
  • 在 reWordBench 數據集上,Crome-CAN 的平均排名準確率達到了 72.71%,相比基線模型 RRM 提升了 12.5%。

以下兩圖分別展示了 Crome 在不同中性增強策略下的平均性能和在 RewardBench 不同子集上的評估結果。通過這些圖表,我們可以看到不同策略在不同場景下的表現差異,從而更好地理解如何選擇合適的中性增強方法。

Crome在不同中性增強策略訓練下在RewardBench和reWordBench上的平均表現

對RewardBench不同子集上中性增強變體的評估

一點討論

實際應用指導內容

在實際應用中,Crome 框架的部署需要根據不同的大型語言模型和任務需求進行精細調整。例如,在不同規模的 LLM 上,數據增強的比例和訓練超參數可能需要重新校準。對于較小的模型,可能需要減少增強數據的比例以避免過擬合;而對于較大的模型,則可以適當增加數據量以充分利用其強大的學習能力。

數據質量問題也是實際應用中的一個重要挑戰。數據噪聲和數據不平衡可能對 Crome 框架的性能產生顯著影響。為了解決這些問題,可以采取數據預處理措施,如清洗噪聲數據、平衡數據分布,以及采用增強學習策略,如動態調整學習率和批量大小等。

將 Crome 框架與現有的模型評估和對齊流程相結合是實現高效模型訓練的關鍵。例如,在現有的 RLHF 流程中,可以在人類反饋數據收集之后、模型訓練之前嵌入 Crome 的因果增強和中性增強策略。這樣可以在不大幅改變現有流程的情況下,顯著提升模型的魯棒性和對齊效果。

Crome 的局限性

盡管 Crome 框架在提高獎勵模型魯棒性方面取得了較好的試驗數據,但其仍存在一些局限性。首先,理想化假設在實際應用中可能難以完全滿足。例如,布爾屬性的假設忽略了屬性可能存在的多級或連續狀態。其次,數據增強的可擴展性與成本也是一個值得關注的問題。生成高質量的反事實示例需要大量的計算資源和精心設計的提示,這在大規模應用中可能成為瓶頸。此外,Crome 框架對新型虛假屬性的泛化能力仍有待提高,尤其是在面對完全未見過的虛假屬性時。最后,LLM 生成反事實的保真度可能因模型的局限性而受到影響,進而影響增強數據的質量。

針對這些局限性,未來的改進方向包括擴展理論框架以涵蓋更復雜的屬性類型,開發更高效的數據增強策略以降低計算成本,進一步探索對新興虛假屬性的泛化能力,以及提升 LLM 在反事實生成中的保真度。這些研究將有助于推動因果魯棒獎勵建模技術的進一步發展和應用。

總結

本文介紹了一種新的框架 Crome(Causally Robust Reward Modeling),為解決獎勵模型的獎勵欺騙問題提供了一種創新而有效的方法。Crome 通過引入因果模型和精心設計的數據增強策略,為解決 RLHF 中的獎勵欺騙問題提供了新的視角和解決方案。以下是文章的核心觀點和總結:

Crome 框架的核心貢獻

1. 因果增強和中性增強:Crome 提出了兩種關鍵的數據增強策略。因果增強通過生成在特定因果屬性上有所變化的問答對,提高了模型對這些屬性變化的敏感性。中性增強則通過生成主要在虛假屬性上有所變化的問答對標記對,增強了模型對這些屬性變化的不變性。這些策略使得 Crome 能夠精準地區分因果屬性和虛假屬性,從而提升獎勵建模的魯棒性和準確性。

2. 因果模型的應用:Crome 基于因果模型,強調對因果關系的識別和分析。它通過構建因果圖,清晰地展示了因果屬性和虛假屬性在獎勵建模中的作用。這種因果視角有助于提高模型的魯棒性,也為理解模型行為提供了更深入的理論基礎。

通過一系列實驗驗證了 Crome 框架的有效性。在 RewardBench、WildGuardTest 和 GSM8k 等多個基準數據集上,Crome 在平均準確率、攻擊成功率和拒絕回答率等關鍵指標上均優于基線模型。特別是在安全和推理任務中,Crome 展現出了顯著的性能提升,證明了其在實際應用中的潛力和價值。

Crome 框架可以輕松集成到現有的 RLHF 流程中,通過在人類反饋數據收集后和模型訓練前嵌入數據增強策略,顯著提升模型的魯棒性和對齊效果。這對于確保大型語言模型(LLM)的安全和有效部署具有重要意義。Crome 的成功不僅體現在實驗結果上,更為AI應用落地時的獎勵建模提供了新的思路和方法論。它強調了因果關系在建模復雜文本數據中的重要性,并展示了如何通過系統的設計和優化來克服虛假屬性的干擾。Crome 框架是一個極具前景的工具。

責任編輯:龐桂玉 來源: 覺察流
相關推薦

2023-08-11 14:18:52

谷歌研究

2021-02-05 16:29:47

Google開源軟件框架

2022-03-26 10:18:26

GoogleRust獲獎者

2021-02-01 10:47:11

人工智能機器學習技術

2025-09-28 15:42:03

DeepMindCoF視頻模型

2023-04-21 15:49:13

谷歌DeepMind

2024-11-18 09:50:00

模型訓練

2015-09-15 09:12:04

程序媛Google特殊獎勵

2009-07-29 09:15:49

2017-03-16 14:21:55

人工智能神經網絡機器

2021-10-14 09:43:59

人工智能AI機器人

2025-04-11 09:35:34

2017-08-15 16:35:25

2022-04-01 15:30:18

語言模型自然語言AI

2009-02-01 13:49:03

GoogleGDrive云存儲

2021-12-17 10:09:47

編碼器語言模型DeepMind

2025-07-17 13:05:35

2022-06-20 15:31:11

GoogleSOC網絡安全

2025-09-02 02:53:00

LangExtracGoogle開源

2024-04-07 08:50:00

谷歌框架
點贊
收藏

51CTO技術棧公眾號

电影亚洲精品噜噜在线观看| 亚洲第一色网站| 欧美久久综合网| 欧美日韩高清一区二区| 亚洲一区 在线播放| 欧美 日韩 国产 精品| 日韩高清在线电影| 欧美成人激情在线| 91网站免费视频| 久久久精品区| 欧美中文字幕一区| 成年人网站国产| 在线看av的网址| 不卡av在线免费观看| 国产精品自产拍在线观看中文| 欧美精品久久久久久久久46p| 欧美日韩导航| 欧美一区二区视频在线观看2022 | 2023国产精品久久久精品双| 亚洲精品v欧美精品v日韩精品| 国产精彩免费视频| 丁香影院在线| 亚洲欧美精品午睡沙发| 日本午夜一区二区三区| 天堂网2014av| 国产精选一区二区三区| 国产成人在线视频| 日韩经典在线观看| 欧美 日韩 国产 一区| 在线看欧美日韩| ass精品国模裸体欣赏pics| 白嫩亚洲一区二区三区| 欧美在线免费视屏| 日韩中文字幕二区| 欲香欲色天天天综合和网| 亚洲精品日日夜夜| 五月天av影院| 久草资源在线| 中文字幕一区二区三中文字幕| 欧美二区三区在线| 性插视频在线观看| 99热这里都是精品| 狠狠色狠狠色综合人人| 丁香六月色婷婷| 丁香激情综合五月| 国产高清精品一区二区| 亚洲精品无amm毛片| 国产另类ts人妖一区二区| 成人黄色大片在线免费观看| 亚洲天堂777| 毛片av一区二区三区| 国产精品久久中文| 手机av免费观看| 天堂在线一区二区| 欧美与欧洲交xxxx免费观看| 国产一级做a爱片久久毛片a| 国产亚洲毛片| 国产成人+综合亚洲+天堂| 日本黄色一级视频| 日韩**一区毛片| 国产精品一二三在线| 中文字幕一区二区在线视频| 免费人成网站在线观看欧美高清| 国产精品久久久久77777| 中文字幕乱伦视频| 精品一区二区三区久久| 亚洲a成v人在线观看| 亚洲AV无码国产精品午夜字幕| 国产凹凸在线观看一区二区| 国产精品入口免费| 青青草在线免费视频| 国产欧美精品一区二区三区四区 | 精品一区二区国产| 欧洲一区av| 国产精品电影一区二区| 日韩欧美一级在线| 九九色在线视频| 红桃av永久久久| www.xxx亚洲| 亚洲欧洲二区| 亚洲国产成人精品一区二区 | 91精品无人成人www| 免费视频观看成人| 欧美大胆人体bbbb| 双性尿奴穿贞c带憋尿| 欧美性感美女一区二区| 美女精品久久久| 久久国产黄色片| 麻豆91在线播放免费| 国产精品v欧美精品∨日韩| 香蕉视频911| 国产精品盗摄一区二区三区| 国产日韩欧美精品在线观看| 亚洲电影有码| 精品日韩一区二区| 久久久久久久久久久久| 欧美久久视频| 国产成人一区三区| 国产小视频一区| 国产女人18毛片水真多成人如厕 | 亚洲男人的天堂在线播放| 国产三级aaa| 国产欧美不卡| 亚洲自拍另类欧美丝袜| 成人性爱视频在线观看| 亚洲精品欧美激情| 北条麻妃av高潮尖叫在线观看| 年轻的保姆91精品| 在线视频欧美性高潮| 国产精品成人免费一区二区视频| 男人的j进女人的j一区| 精品一区二区三区自拍图片区| 久草资源在线观看| 在线观看日韩国产| 色噜噜在线观看| 欧美激情91| 91精品视频在线看| 国产香蕉视频在线看| 午夜精品福利久久久| 久久精品国产99久久99久久久| 免费看日本一区二区| 久久久这里只有精品视频| 国产精品无码久久av| 国产欧美日韩在线视频| 久久精品.com| 欧美激情久久久久久久久久久| 久久躁狠狠躁夜夜爽| 成人免费一区二区三区| 久久久久国产成人精品亚洲午夜| 999一区二区三区| 国产视频一区二| 中文字幕亚洲一区二区三区| 99精品在线播放| www.爱久久.com| 黄色一级片在线看| 国产精品对白久久久久粗| 欧美成人精品在线| 99久久精品国产成人一区二区| 国产精品人妖ts系列视频| 无码人妻丰满熟妇区毛片| 任你弄精品视频免费观看| 午夜免费在线观看精品视频| 丰满人妻一区二区| 亚洲一区在线播放| 亚洲成a人无码| 在线看片一区| 国产日韩久久| 蜜桃视频www网站在线观看| 日韩国产一区三区| 中文字幕高清在线免费播放| 91免费看片在线观看| 免费无遮挡无码永久视频| 欧洲亚洲视频| 国产999在线| av基地在线| 欧美男男青年gay1069videost| 国产又粗又猛又爽又黄的视频四季| 日韩高清国产一区在线| 亚洲在线不卡| 精品午夜视频| 久久久久久久久国产| 免费观看黄一级视频| 图片区小说区国产精品视频| 熟女丰满老熟女熟妇| 性娇小13――14欧美| 日产国产精品精品a∨| 欧美高清xxx| 免费97视频在线精品国自产拍| 国产夫妻自拍av| 亚洲成人av电影在线| 蜜桃精品一区二区| 免费在线成人网| 日本天堂免费a| 欧美一区二区三区久久| 国产精品激情av在线播放| 国产原创在线观看| 亚洲精品久久7777777| 成年人视频免费| 亚洲欧美激情一区二区| 性色av蜜臀av浪潮av老女人| 日韩国产欧美三级| xxxxxx在线观看| 亚洲福利天堂| 国产日韩在线视频| av老司机在线观看| 在线观看亚洲视频| 欧美一级淫片aaaaaa| 日本久久电影网| 国产精品三区在线观看| 91视视频在线观看入口直接观看www | http;//www.99re视频| 性欧美又大又长又硬| 日韩一级黄色av| 亚洲色图狠狠干| 欧美日韩不卡在线| 日韩精品成人在线| 亚洲欧美色一区| 亚洲精品成人无码| 成人午夜在线播放| 57pao国产成永久免费视频| 亚洲欧洲一级| 青青草原国产免费| 宅男在线一区| 成人av电影免费| 国产精品久久久久77777丨| 国产做受高潮69| 麻豆网站视频在线观看| 国产视频精品va久久久久久| 99视频国产精品免费观看a| 色婷婷激情一区二区三区| 久久久久黄色片| 国产精品久久99| 全黄一级裸体片| 成人精品免费网站| 精品国产乱码久久久久久1区二区| 久久精品一区二区三区中文字幕| 免费人成在线观看视频播放| 午夜精品久久久久久久四虎美女版| 久久国产主播精品| 成人精品动漫一区二区三区| 亚洲sss综合天堂久久| 成人国产在线| 国产成人精品久久| 蜜桃视频在线网站| 国外视频精品毛片| 欧美1234区| 色综合天天狠天天透天天伊人| 在线激情网站| 永久555www成人免费| 色吊丝在线永久观看最新版本| 日韩女同互慰一区二区| 99久久精品日本一区二区免费| 欧美色图在线观看| 中文字幕xxxx| 色婷婷久久久综合中文字幕| 久久99精品波多结衣一区| 亚洲国产精品影院| 国产 日韩 欧美 成人| 一区二区三区加勒比av| 少妇被躁爽到高潮无码文| 国产精品另类一区| 日韩一区二区三区四区视频| 欧美国产日韩一二三区| 国产传媒国产传媒| 欧美国产日韩亚洲一区| 波多野结衣一二三四区| 中日韩av电影| 在线视频这里只有精品| 国产精品久久毛片a| 熟女av一区二区| 亚洲日本电影在线| 欧美片一区二区| 亚洲亚洲人成综合网络| 国产一级片免费看| 欧美日韩人人澡狠狠躁视频| 青青草av在线播放| 一本大道av一区二区在线播放| 国产成人无码专区| 欧美日韩中文国产| 99草在线视频| 精品成人一区二区三区| 亚洲欧洲视频在线观看| 亚洲视频国产视频| 免费日本一区二区三区视频| 欧美成人免费全部观看天天性色| 日韩另类在线| 97在线观看视频| 日本综合视频| 亚洲a级在线播放观看| 红杏成人性视频免费看| 欧美另类一区| 99久久久国产精品美女| 青草网在线观看| 美女视频一区免费观看| 中文字幕第38页| 高清久久久久久| 91精品人妻一区二区| 国产精品久久久久久一区二区三区 | 红杏aⅴ成人免费视频| 日本欧洲国产一区二区| 羞羞色午夜精品一区二区三区| 日韩xxxx视频| 青青国产91久久久久久| 中国男女全黄大片| 国产婷婷色一区二区三区四区 | 成人免费高清在线播放| 欧美成人免费视频| 粉嫩一区二区三区| 99久久综合狠狠综合久久止| 美日韩中文字幕| 青青在线免费视频| 久久国产一二区| 日韩精品国产一区| 中文字幕精品—区二区四季| 久久久国产成人| 欧美视频中文字幕| 蜜臀久久精品久久久久| 搡老女人一区二区三区视频tv| 国产不卡人人| 97久久天天综合色天天综合色hd| 九九综合在线| 人妻无码久久一区二区三区免费| 麻豆视频观看网址久久| 波多野结衣办公室33分钟| 亚洲男同性视频| 小泽玛利亚一区二区三区视频| 日韩女优电影在线观看| 男人资源在线播放| 亲爱的老师9免费观看全集电视剧| 日韩成人久久| 伊人久久99| 石原莉奈在线亚洲二区| 免费a v网站| 一区二区三区影院| 国产女人高潮时对白| 在线视频中文亚洲| 欧美性suv| 激情久久av| 韩日欧美一区| 91视频免费入口| 最新成人av在线| 91 中文字幕| 在线a欧美视频| 香蕉视频亚洲一级| 老司机精品福利在线观看| 亚洲国内自拍| 国产午夜在线一区二区三区| 亚洲狼人国产精品| 国产理论视频在线观看| 日韩在线观看免费高清| 国产精品扒开腿做爽爽爽视频软件| 久久精品国产精品国产精品污 | 99久久久无码国产精品性波多| 中文字幕永久在线不卡| 国产91av在线播放| 中文字幕精品在线视频| 成人午夜sm精品久久久久久久| 欧美一区二区视频在线| 免费日韩av片| 91精品人妻一区二区| 色哟哟精品一区| 国产午夜在线观看| 国产精品日韩在线观看| 成人羞羞网站入口免费| 小泽玛利亚视频在线观看| 国产精品网曝门| 亚洲无码精品国产| 精品国产一区二区三区久久狼黑人 | 我要看一级黄色录像| 欧美美女视频在线观看| 免费**毛片在线| 亚洲bt欧美bt日本bt| 好吊一区二区三区| 国产在线观看无码免费视频| 欧美性猛xxx| www在线免费观看| 91在线观看欧美日韩| 今天的高清视频免费播放成人| 岛国精品资源网站| 一本色道a无线码一区v| chinese偷拍一区二区三区| 国产欧美在线看| 欧美jizzhd精品欧美巨大免费| 人妻巨大乳一二三区| 午夜久久电影网| 浮生影视网在线观看免费| 成人av在线天堂| 精久久久久久| 久久亚洲无码视频| 欧美一区中文字幕| 国产伦子伦对白在线播放观看| 鲁鲁视频www一区二区| 男男视频亚洲欧美| 麻豆视频在线观看| 精品视频中文字幕| 日韩一区二区三免费高清在线观看| mm131午夜| 久久综合999| 国产又大又粗又长| 97视频网站入口| 日本a级不卡| 激情av中文字幕| 91黄视频在线| 亚洲婷婷噜噜| 日韩福利影院| 丁香激情综合国产| 中文字幕日本人妻久久久免费 | 国产精品第九页| 正在播放欧美一区| 99亚洲乱人伦aⅴ精品| 大香煮伊手机一区| 一区二区三区美女| 国产高清视频在线| 国产精品对白刺激久久久| 青草av.久久免费一区| 日本在线视频免费| 精品国产区一区二区三区在线观看| 牛牛视频精品一区二区不卡| 五月婷婷六月丁香激情| 精品国产999|