精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM會(huì)寫代碼≠推理+規(guī)劃!AAAI主席揭秘:代碼數(shù)據(jù)質(zhì)量太高|LeCun力贊

人工智能 新聞
亞利桑那州立大學(xué)教授揭秘代碼生成質(zhì)量高的原因:語言模型是一個(gè)近似檢索器,GitHub代碼質(zhì)量高,而文本數(shù)據(jù)中價(jià)值觀沖突太多,僅此而已!

自從ChatGPT發(fā)布后,各種基于大模型的產(chǎn)品也快速融入了普通人的生活中,但即便非AI從業(yè)者在使用過幾次后也可以發(fā)現(xiàn),大模型經(jīng)常會(huì)胡編亂造,生成錯(cuò)誤的事實(shí)。

不過對(duì)于程序員來說,把GPT-4等大模型當(dāng)作「代碼輔助生成工具」來用的效果明顯要比「事實(shí)檢索工具」要好用很多,因?yàn)榇a生成往往會(huì)涉及到復(fù)雜的邏輯分析等,所以也有人將這種推理(廣義規(guī)劃)能力歸因于大型語言模型(LLM)的涌現(xiàn)。

學(xué)術(shù)界也一直在就「LLM能否推理」這個(gè)問題爭(zhēng)論不休。

圖片

最近,計(jì)算機(jī)科學(xué)家、亞利桑那州立大學(xué)教授Subbarao Kambhampati(Rao)以「LLM真的能推理和規(guī)劃嗎?」(Can LLMs Really Reason & Plan?)為題,全面總結(jié)了語言模型在推理和規(guī)劃方面的研究成果,其中也談到了LLM的代碼生成與推理能力的關(guān)聯(lián)。

圖片

視頻鏈接:https://www.youtube.com/watch?v=uTXXYi75QCU

PPT鏈接:https://www.dropbox.com/scl/fi/g3qm2zevcfkp73wik2bz2/SCAI-AI-Day-talk-Final-as-given.pdf

一句話總結(jié):LLM的代碼生成質(zhì)量比英語(自然語言)生成質(zhì)量更高,只能說明「在GitHub上進(jìn)行近似檢索」要比「通用Web上檢索」更容易,而不能反映出任何潛在的推理能力。

造成這種差異的原因主要有兩個(gè):

1. 用于LLM訓(xùn)練的代碼數(shù)據(jù)質(zhì)量要比文本質(zhì)量更高

2. 形式語言中「語法和語義的距離」比高度靈活的自然語言要低

圖片

圖靈獎(jiǎng)得主Yann LeCun也表示贊同:自回歸LLM對(duì)編碼非常有幫助,即便LLM真的不具備規(guī)劃能力。

Rao教授是AAAI的主席,IJCAI的理事,以及Partnership on AI的創(chuàng)始董事會(huì)成員;他的主要研究方向?yàn)椋?/span>

圖片

1. 面向人類的AI系統(tǒng)(Human-Aware AI Systems):可解釋的人工智能交互。人工智能系統(tǒng)的規(guī)劃和決策。人機(jī)組隊(duì)。主動(dòng)決策支持。可學(xué)習(xí)的規(guī)劃模型和Model Lite規(guī)劃。可解釋的行為和解釋。人為因素評(píng)估。

2. 自動(dòng)規(guī)劃(Automated Planning,AI):度量、時(shí)間、部分可訪問和隨機(jī)世界中的規(guī)劃合成、啟發(fā)式方法。規(guī)劃的多目標(biāo)優(yōu)化。用富有表現(xiàn)力的動(dòng)作推理。行程安排。加快學(xué)習(xí)以幫助規(guī)劃者。約束滿足與運(yùn)籌學(xué)技術(shù)。規(guī)劃在自動(dòng)化制造和空間自主方面的應(yīng)用。

3. 社交媒體分析與信息整合(Social Media Analysis & Information Integration):社交媒體平臺(tái)上的人類行為分析。信息集成中用于查詢優(yōu)化和執(zhí)行的自適應(yīng)技術(shù)。源發(fā)現(xiàn)和源元數(shù)據(jù)學(xué)習(xí)。

代碼生成≠推理+規(guī)劃

已故的計(jì)算機(jī)科學(xué)家Drew McDermott曾經(jīng)說過,規(guī)劃只是一種語言的自動(dòng)編程,每個(gè)原語都對(duì)應(yīng)于可執(zhí)行的操作(planning is just automatic programming on a language with primitives corresponding to executable actions)。

也就是說,廣義上的規(guī)劃可以寫成程序,如果GPT-4或其他大模型可以正確地生成代碼,那也就證明了LLM具有規(guī)劃能力。

比如說去年5月,英偉達(dá)、加州理工等研究團(tuán)隊(duì)合作開發(fā)出了Voyager(旅行者)智能體,也是Minecraft(《我的世界》游戲)中首個(gè)基于LLM的具身、終身學(xué)習(xí)智能體(embodied lifelong learning agent),可以不斷探索世界,獲得各種技能,并在沒有人為干預(yù)的情況下進(jìn)行新的發(fā)現(xiàn)。

論文鏈接:https://arxiv.org/abs/2305.16291

Voyager的核心思想就是讓LLM輸出代碼來執(zhí)行任務(wù),并且在模擬器中運(yùn)行,包含三個(gè)關(guān)鍵組件:最大化探索(exploration)的自動(dòng)課程(curriculum );用于存儲(chǔ)和檢索復(fù)雜行為的可執(zhí)行代碼的不斷增長(zhǎng)的技能庫(kù);新的迭代提示機(jī)制,包含環(huán)境反饋、執(zhí)行錯(cuò)誤和自我驗(yàn)證以改進(jìn)程序。

Voyager通過黑盒查詢與GPT-4進(jìn)行交互,從而無需對(duì)模型參數(shù)進(jìn)行微調(diào)。

雖然還有其他類似Voyager的工作可以利用LLM以代碼生成的方式完成規(guī)劃,但這也并不能證明LLM就具有規(guī)劃能力。

從原理上說,LLM本質(zhì)上是一個(gè)近似檢索器(approximate retrieval),能否成功規(guī)劃取決于訓(xùn)練數(shù)據(jù)的質(zhì)量。

在自然語言生成上,LLM需要吞噬海量數(shù)據(jù),其中很多數(shù)據(jù)在事實(shí)基礎(chǔ)或是價(jià)值體系上都存在很大分歧,比如地平論者和疫苗反對(duì)者也有自己的一套理論,可以寫出令人信服的文章。

而在代碼生成上,訓(xùn)練數(shù)據(jù)主要來自GitHub上的開源代碼,其中大部分都是「有效數(shù)據(jù)」,而且軟件工程師的價(jià)值體系對(duì)代碼的質(zhì)量影響微乎其微,這也可以解釋為什么代碼生成的質(zhì)量要比文本補(bǔ)全的質(zhì)量更高。

盡管如此,但代碼生成的本質(zhì)上仍然是近似檢索,其正確性無法保證,所以在使用GitHub Copilot等輔助工具時(shí),經(jīng)常可以看到有人抱怨花了太長(zhǎng)時(shí)間在生成代碼的調(diào)試上,生成的代碼往往看似運(yùn)行良好,但背地里蘊(yùn)藏bug

代碼看起來能正常運(yùn)行的部分原因可以歸結(jié)為兩個(gè)原因:

1. 系統(tǒng)中存在一個(gè)輔助工具(增量解釋器),可以標(biāo)記處明顯的執(zhí)行異常,可以讓人類程序員在調(diào)試過程中注意到;

2. 語法上正確的代碼段在語義上也可能是正確的,雖然無法完全保證,但語法正確是可執(zhí)行的先決條件(對(duì)于自然語言來說也是如此)。

語言模型的自我驗(yàn)證

在少數(shù)情況下,例如上面提到的Voyager模型,其開發(fā)者聲稱:生成的代碼質(zhì)量已經(jīng)足夠好,可以直接在世界上運(yùn)行,但仔細(xì)閱讀就會(huì)發(fā)現(xiàn),這種效果主要依賴于世界對(duì)規(guī)劃模糊性的寬容。

某些論文中也會(huì)采用「LLM自我驗(yàn)證」(self-verify,self-critique自我批評(píng))的方式,即在運(yùn)行代碼之前在目標(biāo)場(chǎng)景中嘗試執(zhí)行驗(yàn)證一次,但同樣,沒有理由相信LLM具有自我驗(yàn)證的能力。

下面兩篇論文就對(duì)模型的驗(yàn)證能力產(chǎn)生質(zhì)疑。

論文鏈接:https://arxiv.org/abs/2310.12397

這篇論文系統(tǒng)地研究LLMs的迭代提示的有效性在圖著色(Graph Coloring)的背景下(一個(gè)典型的NP完全推理問題),涉及到命題可滿足性以及實(shí)際問題,如調(diào)度和分配;文中提出了一個(gè)原則性的實(shí)證研究GPT4在解決圖著色實(shí)例或驗(yàn)證候選著色的正確性的性能。

在迭代模式中,研究人員要求模型來驗(yàn)證自己的答案,并用外部正確的推理機(jī)來驗(yàn)證所提出的解決方案。

結(jié)果發(fā)現(xiàn):

1. LLMs在解決圖著色實(shí)例方面很差;

2. 在驗(yàn)證解決方案方面并沒有更好的表現(xiàn)-因此在迭代模式下,LLMs批評(píng)LLM生成的解決方案無效;

3. 批評(píng)的正確性和內(nèi)容(LLMs本身和外部求解器)似乎在很大程度上與迭代提示的性能無關(guān)。

第二篇論文研究了大模型能否通過自我批評(píng)來改進(jìn)規(guī)劃。

論文鏈接:https://arxiv.org/abs/2310.08118

這篇論文的研究結(jié)果表明,自我批評(píng)似乎會(huì)降低規(guī)劃生成性能,在使用GPT-4的情況下,無論是外部驗(yàn)證器還是自我驗(yàn)證器都在該系統(tǒng)中產(chǎn)生了非常多的誤報(bào),損害了系統(tǒng)的可靠性。

并且反饋信號(hào)為二元(正確、錯(cuò)誤)和詳細(xì)信息對(duì)規(guī)劃生成的影響都很小,即LLM在自我批評(píng)、迭代規(guī)劃任務(wù)框架下的有效性值得懷疑。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-01-29 09:40:00

AI訓(xùn)練

2024-02-01 08:34:30

大模型推理框架NVIDIA

2023-11-24 17:01:30

模型推理

2025-03-05 04:00:00

2021-02-18 00:02:53

數(shù)據(jù)庫(kù)工具低代碼

2013-03-04 09:46:06

2013-08-23 14:22:45

SA系統(tǒng)管理員運(yùn)維

2015-12-09 15:12:13

產(chǎn)品經(jīng)理寫代碼

2013-03-21 10:51:06

開發(fā)者代碼質(zhì)量開發(fā)經(jīng)驗(yàn)

2025-02-05 09:10:00

2018-06-03 08:22:55

Oracle云計(jì)算開源

2022-03-25 09:22:42

代碼開發(fā)

2025-06-23 08:30:05

2020-02-10 20:16:04

程序員AI人工智能

2011-07-18 09:29:39

項(xiàng)目經(jīng)理

2018-01-02 13:30:04

代碼質(zhì)量代碼預(yù)言

2012-11-07 09:48:26

2025-02-25 10:21:15

2023-06-09 13:37:00

排行模型

2021-02-20 08:05:35

代碼效率C++
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

一级黄色特级片| 久久这里只有精品首页| 日韩欧美国产一区在线观看| 欧美一区二区三区综合| 天堂影院在线| 男女性色大片免费观看一区二区 | 亚洲成在人线免费| 蜜桃av噜噜一区二区三| 国产精品系列视频| 亚洲乱码视频| 色婷婷成人综合| 午夜剧场免费看| 久草综合在线| 精品动漫一区二区三区| 艳色歌舞团一区二区三区| 免费看黄色一级视频| 日韩国产在线观看| 欧美激情视频一区二区| 九一在线免费观看| 欧美日韩一区二区三区在线电影| 欧美日韩在线播放| 日本中文字幕亚洲| 免费不卡视频| 国产性做久久久久久| 超碰97网站| 在线播放亚洲精品| 久久蜜桃资源一区二区老牛| 精品中文字幕在线观看| 国产美女永久免费无遮挡| 一区二区三区免费在线看| 欧美自拍偷拍一区| 女人喷潮完整视频| 黄色在线观看视频网站| 亚洲欧洲性图库| 农村寡妇一区二区三区| 好男人在线视频www| 精品亚洲成a人| 国产精品久久国产精品99gif| 国产真实乱人偷精品视频| 香蕉久久网站| 最近的2019中文字幕免费一页 | 欧美激情自拍偷拍| 免费看成人午夜电影| 日本免费不卡视频| 风流少妇一区二区| 91九色在线免费视频| 97精品人妻一区二区三区| 日韩黄色一级片| 欧美专区在线观看| 看片网址国产福利av中文字幕| 国产精品www994| 欧美成人免费大片| 爱爱视频免费在线观看| 久久中文字幕av一区二区不卡| 在线电影av不卡网址| 亚洲av毛片基地| 精品香蕉视频| 色哟哟入口国产精品| 久久成人激情视频| 欧美色女视频| 日韩中文字幕视频在线| 国产成人精品视频免费| 久久看人人摘| 久久精品国产91精品亚洲| 免费黄色国产视频| 久久久人成影片免费观看| xx视频.9999.com| a在线视频播放观看免费观看| 亚欧美无遮挡hd高清在线视频| 久久精品成人动漫| 久久免费视频99| 亚洲国产黄色| 青青草一区二区| 懂色av蜜臀av粉嫩av喷吹| 免费成人美女在线观看.| 国产精品视频一| av av片在线看| 不卡欧美aaaaa| 欧美日韩视频在线一区二区观看视频| 嫩草精品影院| 中文字幕不卡在线播放| 色乱码一区二区三区熟女| 91在线中字| 舔着乳尖日韩一区| 国产真人无码作爱视频免费| 91嫩草国产线观看亚洲一区二区| 日韩欧美一级二级三级久久久| 国产 xxxx| 韩日一区二区三区| 成年无码av片在线| 国产精品视频久久久久久久| 肉肉av福利一精品导航| 91精品久久久久久久久不口人| www三级免费| 久久免费国产精品| 国产美女视频免费| 毛片电影在线| 555www色欧美视频| 亚洲精品视频大全| 一区二区三区四区在线观看国产日韩| 久久久免费电影| 中国一级特黄视频| 成人久久视频在线观看| 视频一区二区三| 波多野结衣在线观看| 欧美三级资源在线| 美女扒开腿免费视频| 日韩三级在线| 97av在线视频| 国产日韩欧美中文字幕| 久久美女高清视频| 无码人妻精品一区二区蜜桃百度| 台湾佬中文娱乐久久久| 精品国产乱码久久久久久久| 极品久久久久久久| 国产精品久久久久9999高清| 成人激情视频在线观看| 久久久pmvav| 亚洲午夜影视影院在线观看| jizz18女人| 蜜桃一区二区| 韩国精品久久久999| 国产免费高清视频| 国产精品视频一区二区三区不卡| 欧美视频在线免费播放| 日韩视频一区二区三区四区| 中文字幕一区日韩电影| 免费观看日批视频| av不卡免费电影| 日本一本中文字幕| 久久久久久久久成人| 正在播放欧美一区| 欧美亚洲精品天堂| 91欧美激情一区二区三区成人| 91视频成人免费| 91亚洲精品在看在线观看高清| 正在播放欧美一区| 免费黄色片视频| 久久日一线二线三线suv| 极品粉嫩国产18尤物| 欧美三级一区| 久精品免费视频| 99热精品在线播放| 国产精品国产三级国产有无不卡| 无人在线观看的免费高清视频| 亚洲aaa级| 91超碰中文字幕久久精品| 日韩中文字幕综合| 亚洲国产精品嫩草影院| zjzjzjzjzj亚洲女人| 亚洲国产精品一区| 国内精品久久国产| 漫画在线观看av| 亚洲欧洲国产伦综合| 欧美精品一二三四区| 久久久久久久综合| 青青草av网站| 四虎成人精品永久免费av九九| 国产精品免费在线免费| 淫片在线观看| 91精品蜜臀在线一区尤物| 日韩成人毛片视频| 国产成人免费视频网站高清观看视频 | 中文字幕一区二区三区四区视频 | 亚洲欧美日韩国产中文专区| 亚洲AV无码成人精品区东京热| 久久久蜜臀国产一区二区| av高清在线免费观看| 中文字幕精品影院| 国产精品久久久久久久久免费| 日本免费在线观看| 欧美一区二区三区不卡| 国产一级片网址| 91在线码无精品| 黑人粗进入欧美aaaaa| 91亚洲成人| 99国产视频在线| 一区二区精品伦理... | jizzjizz亚洲| 亚洲国产精彩中文乱码av| 中文字字幕在线中文| 中文字幕+乱码+中文字幕一区| 免费不卡av网站| 亚洲黄色av| 日韩久久精品一区二区三区| **欧美日韩在线| 欧美极品欧美精品欧美视频| 欧美日韩国产综合视频| 欧美日韩精品一区视频| 国产无码精品在线播放| 国产婷婷精品av在线| 涩涩网站在线看| 亚洲高清激情| 亚洲巨乳在线观看| 成人激情自拍| 国产精品成人播放| 欧美巨大xxxx做受沙滩| 亚洲欧美日韩成人| 国产熟女一区二区丰满| 欧美性生交xxxxx久久久| 久草福利资源在线| 97久久精品人人澡人人爽| 天天视频天天爽| a91a精品视频在线观看| 色噜噜狠狠色综合网| 成人激情自拍| 亚洲xxxx3d| 偷拍视频一区二区三区| 久久99热精品这里久久精品| 二区三区在线播放| 精品国产不卡一区二区三区| 在线视频播放大全| 日韩欧美在线视频观看| 久久久精品人妻一区二区三区四| 日本一区二区动态图| 好男人香蕉影院| 国产成人免费xxxxxxxx| 久热精品在线观看视频| 国产精品女主播一区二区三区| 四虎4hu永久免费入口| 成人网18免费网站| 精品综合在线| 99久久人爽人人添人人澡| 成人亲热视频网站| 国产成人精品123区免费视频| 91精品国产91久久久久| 污污视频在线| 久久福利视频网| 日韩美女网站| 最近2019年手机中文字幕| 男女视频在线观看免费| 亚洲精品xxx| 蜜桃视频久久一区免费观看入口| 欧美一区二区三区视频免费 | 91插插插插插插| 国产精品女人毛片| 老熟妇一区二区| 久久麻豆一区二区| 青青草福利视频| www精品美女久久久tv| 女同性恋一区二区三区| 懂色av一区二区夜夜嗨| 欧美熟妇精品一区二区| 国产精品一区一区三区| 国产无遮挡猛进猛出免费软件 | 国产主播一区| 7777在线视频| 欧美伊人影院| 欧美精品一区二区性色a+v| 亚洲精品国产成人影院| av磁力番号网| 欧美午夜不卡| 国产精品va在线观看无码| 国产在线日韩| 欧美综合在线播放| 中文精品视频| 欧美国产激情视频| 久久只有精品| 中国黄色片免费看| 国产一区二区在线观看免费 | 中文在线观看免费高清| 欧美性大战久久久久久久蜜臀 | 日韩三级高清在线| www.五月婷婷| 欧美精品一区二区三区高清aⅴ | 久久亚洲二区三区| 久久精品—区二区三区舞蹈| 国产女同性恋一区二区| 亚洲精品自拍视频在线观看| 一区二区在线看| 亚洲国产精品午夜在线观看| 精品人伦一区二区三区蜜桃网站| 高清乱码免费看污| 欧美性色欧美a在线播放| 国产福利免费视频| 亚洲国产三级网| av影片在线看| 欧美夫妻性生活xx| 亚洲天堂av影院| 国产日韩在线免费| 超碰cao国产精品一区二区| 久久视频在线观看中文字幕| 日韩成人精品一区| 国产免费内射又粗又爽密桃视频| 亚洲久久成人| 亚洲精品久久久中文字幕| 国产大陆精品国产| 91中文字幕永久在线| 亚洲三级在线播放| 国产精品免费av一区二区| 在线观看欧美黄色| 性中国xxx极品hd| 国产亚洲美女精品久久久| 里番在线观看网站| 69av成年福利视频| 午夜精品久久久久久毛片| 久久精品美女| 中文字幕午夜精品一区二区三区| 日韩欧美一区三区| 久久激情五月激情| 黄色在线观看av| 亚洲色欲色欲www在线观看| 在线观看国产亚洲| 91精品国产丝袜白色高跟鞋| 青青草视频在线观看| 欧美老女人性生活| 精品欧美一区二区三区在线观看 | av直播在线观看| 亚洲欧美视频在线观看| 精产国品一区二区| 欧美r级电影在线观看| www.亚洲视频| 欧美一级淫片videoshd| 一区二区网站| 黄色高清视频网站| 日本在线不卡视频一二三区| 99久久免费看精品国产一区| 亚洲精品国产无天堂网2021 | 伊人久久大香线蕉av一区| 国产精品永久| 中文字幕天堂av| 亚洲精品欧美专区| 国产精品久久久久久久久久久久久久久久| 亚洲欧美自拍一区| 超碰国产一区| 久精品国产欧美| 亚洲美女色禁图| 国产国语老龄妇女a片| 一区二区三区四区不卡视频| 国产一区二区三区黄片| 一夜七次郎国产精品亚洲| 日本成人三级电影| 久久99欧美| 亚洲一区二区网站| 懂色av粉嫩av蜜乳av| 同产精品九九九| 天堂网av在线播放| 97视频在线免费观看| 欧美爱爱网站| 免费在线a视频| 26uuu另类欧美| 国产剧情在线视频| 亚洲欧美www| 九色成人搞黄网站| 亚洲激情一区二区三区| 卡一卡二国产精品 | 美女露出粉嫩尿囗让男人桶| 亚洲人亚洲人成电影网站色| 国产一区二区三区在线观看| 日韩在线免费视频| 黄色成人小视频| 熟妇熟女乱妇乱女网站| 极品少妇一区二区| 破处女黄色一级片| 欧美一区永久视频免费观看| 97caopor国产在线视频| 亚洲最大福利视频| 亚洲国产欧美国产综合一区| youjizz.com国产| 欧美国产欧美综合| 国产精品无码久久久久成人app| 中文字幕亚洲无线码a| 国产色99精品9i| 一本色道久久88亚洲精品综合| 成人综合婷婷国产精品久久免费| 欧美成人精品一区二区免费看片| 日韩欧美一区二区不卡| 久操av在线| 亚洲最大成人网色| 99精品国产福利在线观看免费 | 日韩一二三区| 精品久久久久久久久久中文字幕| av一区二区久久| 亚洲午夜无码久久久久| 久久精品国产精品亚洲| 亚洲精品一区在线| 日产精品久久久久久久蜜臀| 国产一区二区三区香蕉| 久久婷婷综合国产| 日韩精品极品在线观看| 成人免费一区| 国产女人18毛片| 91视视频在线观看入口直接观看www| 国产日产精品一区二区三区| 色婷婷久久av| 成人动态视频| 日韩av.com| 亚洲午夜电影在线观看| se在线电影| 亚洲a一级视频| 久久综合影音| 国产女人18水真多毛片18精品| 日韩av网站在线| 日韩欧乱色一区二区三区在线| 一区二区三区我不卡| a在线播放不卡| 一区二区视频免费| 日本高清+成人网在线观看| 香蕉久久网站| 东京热无码av男人的天堂|