OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)遺作：兩個(gè)大模型博弈一番，輸出更好懂了

作者：機(jī)器之心 2024-07-18 13:19:17

如果 AI 模型給的答案一點(diǎn)也看不懂，你敢用嗎？

隨著機(jī)器學(xué)習(xí)系統(tǒng)在更重要的領(lǐng)域得到應(yīng)用，證明為什么我們可以信任它們的輸出，并明確何時(shí)不應(yīng)信任它們，變得越來越重要。

獲得對(duì)復(fù)雜系統(tǒng)輸出結(jié)果信任的一個(gè)可行方法是，要求系統(tǒng)對(duì)其輸出產(chǎn)生一種解釋，這種解釋對(duì)人類或另一個(gè)受信任的系統(tǒng)來說是可讀的，即可以完全理解以至于任何可能的錯(cuò)誤都可以被發(fā)現(xiàn)。例如，為了建立對(duì)司法系統(tǒng)的信任，我們要求法院提供清晰易讀的書面意見，解釋并支持其決策。

對(duì)于大型語言模型來說，我們也可以采用類似的方法。

不過，在采用這種方法時(shí)，確保語言模型生成的是易于理解的文本，這件事非常重要，尤其是在處理數(shù)學(xué)、編碼這樣的復(fù)雜任務(wù)時(shí)。

如下圖所示，你讓 AI 寫一個(gè)快速排序算法，AI 很快就寫出來了，而且答案很簡潔。但不會(huì)寫代碼的你要怎么判斷 AI 寫得對(duì)不對(duì)呢？

OpenAI 在一篇最新的論文中研究了這個(gè)問題。

論文標(biāo)題：PROVER-VERIFIER GAMES IMPROVE LEGIBILITY OF LLM OUTPUTS
論文鏈接：https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

他們發(fā)現(xiàn)，如果以「得到正確答案」為目標(biāo)，要求大語言模型生成答案，它們給出的答案可能會(huì)很難懂。人類評(píng)估員在判斷這些答案時(shí)，犯錯(cuò)的可能性會(huì)加倍。

所以他們的目標(biāo)是在訓(xùn)練高級(jí)語言模型的過程中，讓它們生成那些較簡單的模型也能夠輕松驗(yàn)證的文本。他們發(fā)現(xiàn)，這樣的文本不僅對(duì)簡單模型友好，對(duì)于人類來說也更可讀。

那么，具體是怎么實(shí)現(xiàn)的呢？這還要提到 2021 年的一篇論文 ——「Learning to Give Checkable Answers with Prover-Verifier Games」。在這篇論文中，Cem Anil 等人提出了一個(gè)名為「Prover-Verifier Games（證明者 - 驗(yàn)證者博弈）」的博弈論框架。該框架由兩個(gè)相互競爭的學(xué)習(xí)者組成：一個(gè)可信的驗(yàn)證者（Verifier）網(wǎng)絡(luò)試圖選擇正確的答案，另一個(gè)更強(qiáng)大但不可信的證明者（Prover）網(wǎng)絡(luò)試圖說服驗(yàn)證者接受特定的答案，而不管其正確性如何。該框架的目標(biāo)是從博弈中產(chǎn)生一個(gè)可靠的證明協(xié)議。

OpenAI 在這項(xiàng)新研究中借鑒了這個(gè)框架，讓兩個(gè)大模型（較強(qiáng)的為證明者，較弱的為驗(yàn)證者）互相博弈，直到二者達(dá)到一種平衡。此時(shí)，證明者給出的答案既有一定的可讀性，又保持了合理的正確性。

OpenAI 表示，通過提高模型輸出的可讀性，可以使人工智能的應(yīng)用更加有效和可信，這對(duì)于需要精確溝通的各個(gè)領(lǐng)域都是有益的。

值得一提的是，這篇論文來自 OpenAI 的超級(jí)對(duì)齊團(tuán)隊(duì)，其中幾位作者在今年早些時(shí)候已經(jīng)離開 OpenAI，團(tuán)隊(duì)也已經(jīng)分崩離析。其中一位作者透露，這是該團(tuán)隊(duì)的最后一篇論文。

一個(gè)直觀的例子

為了提高模型輸出的可讀性，OpenAI 優(yōu)化了一些小學(xué)數(shù)學(xué)問題的思維鏈（CoT），讓它能夠被較弱的模型理解。舉例如下：

問題：肖娜（Shawna）的父親的年齡是肖娜的五倍。肖娜現(xiàn)在的年齡是阿莉婭（Aliya）的三倍。如果阿莉婭 3 歲，那么肖娜的父親多少歲？

這么做的目的是為了驗(yàn)證經(jīng)過這種訓(xùn)練的模型，它的輸出是否更加直接易懂。

這種方法在只對(duì)訓(xùn)練集做了一些優(yōu)化的情況下，讓模型的性能提升了 50%。同時(shí)，模型輸出的答案也更好懂了，這也幫助需要評(píng)估這些答案正確性的人類用戶更準(zhǔn)確地做出判斷。OpenAI 認(rèn)為，進(jìn)一步縮小可讀性強(qiáng)的模型和能力強(qiáng)的模型之間的性能差距，是未來對(duì)齊研究中一個(gè)關(guān)鍵的目標(biāo)。

「證明者」和「驗(yàn)證者」是怎么在訓(xùn)練中博弈的？

為了激勵(lì)強(qiáng)力模型（證明者）生成可讀性更強(qiáng)的文本，研究者采用了一種訓(xùn)練方案，要求強(qiáng)力模型生成的答案能夠被較弱的模型（驗(yàn)證者）輕松驗(yàn)證。具體來說，他們使用了 GPT-4 系列中的大模型和小模型。它們在預(yù)訓(xùn)練數(shù)據(jù)量上相差約三個(gè)數(shù)量級(jí)。它們都接受了一些基于人工標(biāo)注的數(shù)學(xué)推導(dǎo)訓(xùn)練，但未經(jīng)過廣泛的后訓(xùn)練。

首先，研究團(tuán)隊(duì)讓證明者模型嘗試解決一系列數(shù)學(xué)問題。由于證明者模型自身可能出錯(cuò)，它生成的一些答案可能不正確。接下來，他們將這些答案交由驗(yàn)證者模型進(jìn)行檢驗(yàn)，并在以下兩個(gè)階段之間進(jìn)行多輪的交替驗(yàn)證：

「驗(yàn)證者」訓(xùn)練：研究團(tuán)隊(duì)訓(xùn)練較弱的「驗(yàn)證者」模型，驗(yàn)證「證明者」給出的答案是否正確。
「證明者」訓(xùn)練：研究團(tuán)隊(duì)指示性能較強(qiáng)的「證明者」模型扮演「有用」或「狡猾」的戲份。
當(dāng)「證明者」被設(shè)定為「有用」時(shí)，研究團(tuán)隊(duì)將獎(jiǎng)勵(lì)「驗(yàn)證者」打分高的正確答案。
當(dāng)「證明者」被設(shè)定為「狡猾」時(shí)，研究團(tuán)隊(duì)反而獎(jiǎng)勵(lì)「驗(yàn)證者」打分高的錯(cuò)誤答案。

研究團(tuán)隊(duì)發(fā)現(xiàn)，最初，狡猾的「證明者」能夠輕松生成讓「驗(yàn)證者」信服的錯(cuò)誤答案。然而，這些錯(cuò)誤答案將會(huì)進(jìn)入下一輪的「驗(yàn)證者」訓(xùn)練中，相同的漏洞在下一輪中，將不再具有說服力。因此，「證明者」將被迫在每一輪中探索不同的策略。

當(dāng)狡猾的「證明者」再也無法生成讓「驗(yàn)證者」信服的錯(cuò)誤解決方案時(shí)，訓(xùn)練宣告結(jié)束。

研究者都發(fā)現(xiàn)了什么？

性能與可讀性權(quán)衡：

一個(gè)僅在人類編寫的推導(dǎo)上進(jìn)行監(jiān)督式微調(diào)的模型，雖然具有較高的可讀性，但準(zhǔn)確性較差。
當(dāng)模型的優(yōu)化目標(biāo)僅為正確性，即只關(guān)注生成正確答案時(shí)，雖然能夠達(dá)到高準(zhǔn)確性，但生成的解決方案的可讀性卻較差。
OpenAI 提出的可檢查博弈方法平衡了這兩者，在保持高可讀性的同時(shí)保持適度的準(zhǔn)確性。

三種有用的模型：

魯棒驗(yàn)證者：即使解決方案具有誤導(dǎo)性，仍能夠有效區(qū)分正確和錯(cuò)誤的解決方案。
有用的證明者：生成對(duì)人類來說易于理解的解決方案，從而減少人類評(píng)估者的錯(cuò)誤。
狡猾證明者：產(chǎn)生微妙的、錯(cuò)誤的解決方案，這些解決方案最初會(huì)混淆人類評(píng)估者，從而突出需要進(jìn)一步改進(jìn)的領(lǐng)域。

研究團(tuán)隊(duì)使用了同樣的測試問題，來展示狡猾證明者（Sneaky Prover）的生成內(nèi)容和訓(xùn)練過程。

問題：肖娜（Shawna）的父親的年齡是肖娜的五倍。肖娜現(xiàn)在的年齡是阿莉婭（Aliya）的三倍。如果阿莉婭 3 歲，那么肖娜的父親多少歲？

結(jié)論

隨著大語言模型（LLMs）在關(guān)鍵領(lǐng)域和復(fù)雜應(yīng)用中的使用日益增加，了解其所生成的內(nèi)容是否值得信賴變得至關(guān)重要。通過要求模型生成清晰且可驗(yàn)證的理由，可以增強(qiáng)對(duì)其生成內(nèi)容的信任。

此方法的一個(gè)顯著優(yōu)勢是它減少了對(duì)人類示范或可讀性判斷的依賴。這種自主性對(duì)于未來超智能 AI 系統(tǒng)的對(duì)齊尤為重要，其最終目標(biāo)是在沒有人類進(jìn)行直接監(jiān)督的情況下，可靠地將 AI 系統(tǒng)與人類的價(jià)值觀和期望對(duì)齊。

盡管這項(xiàng)工作僅在一個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，并且仍然需要真值標(biāo)簽（ground truth labels），但研究團(tuán)隊(duì)仍預(yù)計(jì)在開發(fā)正確、透明及可驗(yàn)證的 AI 系統(tǒng)中，此類方法會(huì)起到關(guān)鍵作用，并增強(qiáng)其在現(xiàn)實(shí)應(yīng)用中的可信任性和安全性。

更多詳情，請參考原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 訓(xùn)練