LLM會(huì)寫代碼≠推理+規(guī)劃！AAAI主席揭秘：代碼數(shù)據(jù)質(zhì)量太高｜LeCun力贊

作者：新智元 2024-01-23 13:15:07

亞利桑那州立大學(xué)教授揭秘代碼生成質(zhì)量高的原因：語言模型是一個(gè)近似檢索器，GitHub代碼質(zhì)量高，而文本數(shù)據(jù)中價(jià)值觀沖突太多，僅此而已！

自從ChatGPT發(fā)布后，各種基于大模型的產(chǎn)品也快速融入了普通人的生活中，但即便非AI從業(yè)者在使用過幾次后也可以發(fā)現(xiàn)，大模型經(jīng)常會(huì)胡編亂造，生成錯(cuò)誤的事實(shí)。

不過對(duì)于程序員來說，把GPT-4等大模型當(dāng)作「代碼輔助生成工具」來用的效果明顯要比「事實(shí)檢索工具」要好用很多，因?yàn)榇a生成往往會(huì)涉及到復(fù)雜的邏輯分析等，所以也有人將這種推理（廣義規(guī)劃）能力歸因于大型語言模型（LLM）的涌現(xiàn)。

學(xué)術(shù)界也一直在就「LLM能否推理」這個(gè)問題爭(zhēng)論不休。

最近，計(jì)算機(jī)科學(xué)家、亞利桑那州立大學(xué)教授Subbarao Kambhampati（Rao）以「LLM真的能推理和規(guī)劃嗎？」（Can LLMs Really Reason & Plan?）為題，全面總結(jié)了語言模型在推理和規(guī)劃方面的研究成果，其中也談到了LLM的代碼生成與推理能力的關(guān)聯(lián)。

視頻鏈接：https://www.youtube.com/watch?v=uTXXYi75QCU

PPT鏈接：https://www.dropbox.com/scl/fi/g3qm2zevcfkp73wik2bz2/SCAI-AI-Day-talk-Final-as-given.pdf

一句話總結(jié)：LLM的代碼生成質(zhì)量比英語（自然語言）生成質(zhì)量更高，只能說明「在GitHub上進(jìn)行近似檢索」要比「通用Web上檢索」更容易，而不能反映出任何潛在的推理能力。

造成這種差異的原因主要有兩個(gè)：

1. 用于LLM訓(xùn)練的代碼數(shù)據(jù)質(zhì)量要比文本質(zhì)量更高

2. 形式語言中「語法和語義的距離」比高度靈活的自然語言要低

圖靈獎(jiǎng)得主Yann LeCun也表示贊同：自回歸LLM對(duì)編碼非常有幫助，即便LLM真的不具備規(guī)劃能力。

Rao教授是AAAI的主席，IJCAI的理事，以及Partnership on AI的創(chuàng)始董事會(huì)成員；他的主要研究方向?yàn)椋?/span>

1. 面向人類的AI系統(tǒng)（Human-Aware AI Systems）：可解釋的人工智能交互。人工智能系統(tǒng)的規(guī)劃和決策。人機(jī)組隊(duì)。主動(dòng)決策支持。可學(xué)習(xí)的規(guī)劃模型和Model Lite規(guī)劃。可解釋的行為和解釋。人為因素評(píng)估。

2. 自動(dòng)規(guī)劃（Automated Planning，AI）：度量、時(shí)間、部分可訪問和隨機(jī)世界中的規(guī)劃合成、啟發(fā)式方法。規(guī)劃的多目標(biāo)優(yōu)化。用富有表現(xiàn)力的動(dòng)作推理。行程安排。加快學(xué)習(xí)以幫助規(guī)劃者。約束滿足與運(yùn)籌學(xué)技術(shù)。規(guī)劃在自動(dòng)化制造和空間自主方面的應(yīng)用。

3. 社交媒體分析與信息整合（Social Media Analysis & Information Integration）：社交媒體平臺(tái)上的人類行為分析。信息集成中用于查詢優(yōu)化和執(zhí)行的自適應(yīng)技術(shù)。源發(fā)現(xiàn)和源元數(shù)據(jù)學(xué)習(xí)。

代碼生成≠推理+規(guī)劃

已故的計(jì)算機(jī)科學(xué)家Drew McDermott曾經(jīng)說過，規(guī)劃只是一種語言的自動(dòng)編程，每個(gè)原語都對(duì)應(yīng)于可執(zhí)行的操作（planning is just automatic programming on a language with primitives corresponding to executable actions）。

也就是說，廣義上的規(guī)劃可以寫成程序，如果GPT-4或其他大模型可以正確地生成代碼，那也就證明了LLM具有規(guī)劃能力。

比如說去年5月，英偉達(dá)、加州理工等研究團(tuán)隊(duì)合作開發(fā)出了Voyager（旅行者）智能體，也是Minecraft（《我的世界》游戲）中首個(gè)基于LLM的具身、終身學(xué)習(xí)智能體（embodied lifelong learning agent），可以不斷探索世界，獲得各種技能，并在沒有人為干預(yù)的情況下進(jìn)行新的發(fā)現(xiàn)。

論文鏈接：https://arxiv.org/abs/2305.16291

Voyager的核心思想就是讓LLM輸出代碼來執(zhí)行任務(wù)，并且在模擬器中運(yùn)行，包含三個(gè)關(guān)鍵組件：最大化探索（exploration）的自動(dòng)課程（curriculum ）；用于存儲(chǔ)和檢索復(fù)雜行為的可執(zhí)行代碼的不斷增長(zhǎng)的技能庫(kù)；新的迭代提示機(jī)制，包含環(huán)境反饋、執(zhí)行錯(cuò)誤和自我驗(yàn)證以改進(jìn)程序。

Voyager通過黑盒查詢與GPT-4進(jìn)行交互，從而無需對(duì)模型參數(shù)進(jìn)行微調(diào)。

雖然還有其他類似Voyager的工作可以利用LLM以代碼生成的方式完成規(guī)劃，但這也并不能證明LLM就具有規(guī)劃能力。

從原理上說，LLM本質(zhì)上是一個(gè)近似檢索器（approximate retrieval），能否成功規(guī)劃取決于訓(xùn)練數(shù)據(jù)的質(zhì)量。

在自然語言生成上，LLM需要吞噬海量數(shù)據(jù)，其中很多數(shù)據(jù)在事實(shí)基礎(chǔ)或是價(jià)值體系上都存在很大分歧，比如地平論者和疫苗反對(duì)者也有自己的一套理論，可以寫出令人信服的文章。

而在代碼生成上，訓(xùn)練數(shù)據(jù)主要來自GitHub上的開源代碼，其中大部分都是「有效數(shù)據(jù)」，而且軟件工程師的價(jià)值體系對(duì)代碼的質(zhì)量影響微乎其微，這也可以解釋為什么代碼生成的質(zhì)量要比文本補(bǔ)全的質(zhì)量更高。

盡管如此，但代碼生成的本質(zhì)上仍然是近似檢索，其正確性無法保證，所以在使用GitHub Copilot等輔助工具時(shí)，經(jīng)常可以看到有人抱怨花了太長(zhǎng)時(shí)間在生成代碼的調(diào)試上，生成的代碼往往看似運(yùn)行良好，但背地里蘊(yùn)藏bug

代碼看起來能正常運(yùn)行的部分原因可以歸結(jié)為兩個(gè)原因：

1. 系統(tǒng)中存在一個(gè)輔助工具（增量解釋器），可以標(biāo)記處明顯的執(zhí)行異常，可以讓人類程序員在調(diào)試過程中注意到；

2. 語法上正確的代碼段在語義上也可能是正確的，雖然無法完全保證，但語法正確是可執(zhí)行的先決條件（對(duì)于自然語言來說也是如此）。

語言模型的自我驗(yàn)證

在少數(shù)情況下，例如上面提到的Voyager模型，其開發(fā)者聲稱：生成的代碼質(zhì)量已經(jīng)足夠好，可以直接在世界上運(yùn)行，但仔細(xì)閱讀就會(huì)發(fā)現(xiàn)，這種效果主要依賴于世界對(duì)規(guī)劃模糊性的寬容。

某些論文中也會(huì)采用「LLM自我驗(yàn)證」（self-verify，self-critique自我批評(píng)）的方式，即在運(yùn)行代碼之前在目標(biāo)場(chǎng)景中嘗試執(zhí)行驗(yàn)證一次，但同樣，沒有理由相信LLM具有自我驗(yàn)證的能力。

下面兩篇論文就對(duì)模型的驗(yàn)證能力產(chǎn)生質(zhì)疑。

論文鏈接：https://arxiv.org/abs/2310.12397

這篇論文系統(tǒng)地研究LLMs的迭代提示的有效性在圖著色（Graph Coloring）的背景下（一個(gè)典型的NP完全推理問題），涉及到命題可滿足性以及實(shí)際問題，如調(diào)度和分配；文中提出了一個(gè)原則性的實(shí)證研究GPT4在解決圖著色實(shí)例或驗(yàn)證候選著色的正確性的性能。

在迭代模式中，研究人員要求模型來驗(yàn)證自己的答案，并用外部正確的推理機(jī)來驗(yàn)證所提出的解決方案。

結(jié)果發(fā)現(xiàn)：

1. LLMs在解決圖著色實(shí)例方面很差；

2. 在驗(yàn)證解決方案方面并沒有更好的表現(xiàn)-因此在迭代模式下，LLMs批評(píng)LLM生成的解決方案無效；

3. 批評(píng)的正確性和內(nèi)容（LLMs本身和外部求解器）似乎在很大程度上與迭代提示的性能無關(guān)。

第二篇論文研究了大模型能否通過自我批評(píng)來改進(jìn)規(guī)劃。