RLHF缺陷完整揭示！MIT哈佛等32位學(xué)者聯(lián)合發(fā)布

作者：克雷西 2023-08-05 12:50:18

人工智能新聞

RLHF區(qū)別于其他強化學(xué)習(xí)方式的關(guān)鍵之處就在于人類反饋。但作者認(rèn)為，人類反饋很容易存在不準(zhǔn)確的情況，因而是缺陷的一大重要來源。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

MIT哈佛斯坦福等機構(gòu)在內(nèi)的32位科學(xué)家聯(lián)合指出：

被視作ChatGPT成功關(guān)鍵的RLHF，存在缺陷，而且分布在各個環(huán)節(jié)。

他們調(diào)查翻閱了250篇相關(guān)論文，僅研究正文就長達18頁，其中7頁描述了具體缺陷。

此研究一經(jīng)發(fā)出，就受到大量關(guān)注。

有網(wǎng)友表示：這是一次偉大嘗試。所有這些都是為了幫助啟動 RLHF 的學(xué)術(shù)議程。

第一作者Casper還給了RLHF一個「新的解釋」：

Rehashing Lessons from Historical Failures
從歷史的失敗中汲取經(jīng)驗

不僅指出問題，還有解決方案

作者在論文中表示，這項研究主要有三項貢獻。

第一是指出了RLHF在人類反饋、獎勵模型和決策三個主要環(huán)節(jié)中的缺陷。

第二點則是針對這些問題，提供了具體的解決思路。

第三則是呼吁提高RLHF訓(xùn)練出的模型的透明度，并表示訓(xùn)練信息公開有助于提高企業(yè)責(zé)任感。

我們先來看看作者在各個環(huán)節(jié)中都指出了哪些具體缺陷。

人類反饋的局限性

RLHF區(qū)別于其他強化學(xué)習(xí)方式的關(guān)鍵之處就在于人類反饋。

但作者認(rèn)為，人類反饋很容易存在不準(zhǔn)確的情況，因而是缺陷的一大重要來源。

在人類反饋環(huán)節(jié)中，作者首先提到的是人類會產(chǎn)生誤導(dǎo)性評價。

對大模型而言，所涉及的專業(yè)領(lǐng)域涵蓋了方方面面，沒有人能做到樣樣精通。

因此需要在不同領(lǐng)域選擇有代表力的人物，并讓他們給出高質(zhì)量的反饋。

但實際上這項工作是十分困難的。

此外由于人并非完全理性，個別評價者的觀點難免帶有偏見，甚至可能產(chǎn)生毒害。

除了觀念問題引起的「故意」偏差，還有一些偏差是「不小心」的。

由于時間、注意力的不足，人類犯錯誤的情況是很難避免的

而一些帶有迷惑色彩的信息，也可能導(dǎo)致人類被誤導(dǎo)。

而一些對于有一定困難的任務(wù)，人類甚至難以對其做出評價。

論文介紹，不只是做出評價時會產(chǎn)生偏見，評價收集的過程同樣是偏見的一大來源。

收集過程中需要對評價的有用性進行評估，所以評估人員的主觀想法同樣可能帶來影響。

在這個過程當(dāng)中，還不可避免地存在成本與質(zhì)量之間的權(quán)衡，影響準(zhǔn)確程度。

除了反饋的內(nèi)容，反饋的形式也存在一定的局限性，這也是出于成本的考慮。

獎勵模型和策略也需改善

接著，作者又指出，除了人類的反饋，RLHF本身的獎勵模型和決策方式也有需要改進之處。

其中獎勵函數(shù)可能難以準(zhǔn)確描述價值判斷，單個函數(shù)更是無法代表整個人類社會的價值觀。

獎勵模型還有泛化能力差的問題，存在獎勵機制被惡意利用的風(fēng)險。

此外，獎勵模型的質(zhì)量也難以評估，即使能夠?qū)崿F(xiàn)也需要很高的成本。

因為真實的獎勵函數(shù)通常是不可知的，只能通過策略優(yōu)化進行間接評估。

策略方面，論文指出很難高效地對策略進行優(yōu)化，難以保證策略的魯棒性。

在策略執(zhí)行階段，可能會出現(xiàn)與獎勵階段的差異，此前處理得很好的內(nèi)容突然出現(xiàn)問題。

而策略階段可能使用一些預(yù)訓(xùn)練模型，這同樣可能引入其中所包含的偏見信息。

另外，在對獎勵模型和決策方式進行協(xié)同訓(xùn)練時，會出現(xiàn)漂移問題，在效率和避免過擬合之間找到平衡點也存在困難。

如何解決

根據(jù)論文內(nèi)容我們可以看到，從人類反饋到RLHF自身的獎勵模型和決策方式，都存在不同程度的問題。

那么該如何解決呢？作者為我們提供了一些思路。

比如針對人類反饋的局限性問題，作者的策略是可以引入另一套AI系統(tǒng)或獎勵模型，對反饋進行評價。

還有對過程進行監(jiān)督指導(dǎo)、要求提供更精細化的反饋等措施。

另外兩個環(huán)節(jié)，作者同樣給出了解決方案。

對于可以獎勵模型，把讓AI協(xié)助人類反饋這個思路調(diào)換一下，讓人類直接監(jiān)督其表現(xiàn)。

而對于決策方式問題，可以在預(yù)訓(xùn)練階段就對模型進行對齊，并在訓(xùn)練中加入指導(dǎo)。

作者還指出，除了RLHF，其他AI領(lǐng)域存在的安全問題同樣需要引起重視，并提出了相應(yīng)的對策。

RLHF is Not All You Need

作者簡介

領(lǐng)銜的兩位作者分別是MIT CSAIL實驗室的Stephen Casper和哈佛大學(xué)的Xander Davies。

Casper的主要研究方向是對齊算法，此前曾發(fā)表過關(guān)于擴散模型評估的論文并獲得ICML的Spotlight Paper獎。

Davies的主要研究方向是AI安全，今年有兩篇論文被ICML Workshop收錄。

其他作者當(dāng)中，還可以看到不少華人的名字。

論文地址：https://arxiv.org/pdf/2307.15217.pdf

責(zé)任編輯：張燕妮來源：量子位

AI 技術(shù)