精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%

發布于 2024-4-9 09:31
瀏覽
0收藏

ChatGPT,再一次打破人們對它的成見!


它用自己的優秀表現證明了,很多時候自己看似失敗的表現,只是因為人類不會正確地prompt而已。


這位名叫Taelin的程序員、初創公司Higher Order的創始人表示,下面這個腦筋急轉彎,大多數孩子都能在一分鐘內解決,然而所有的AI卻都慘遭失敗。


這也就成了他給GPT「判死刑」的一個鐵證——


GPT模型在訓練集之外,沒有任何推理能力。GPT永遠無法實現AGI。7萬億肯定是白燒的,是時候尋找新的算法了。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

為此,他向公眾社區發出了一項挑戰,任何能用LLM解決這個難題的人,將獲得10000美元的獎金。


然而——他!被!打!臉!了!


兩天后,一位網友僅通過提示,就讓模型解決這道問題時達到了接近100%的成功率。

Taelin迅速「滑跪」,發布聲明承認:我最初的主張是錯誤的。


我懷疑GPT架構是否能解決某些問題,毫無疑問,它可以解決。

并且,他如約給出了10000美元獎金。


沃頓商學院教授Ethan Mollick轉發了他的帖子,評論道——


「我們經常能看到這種現象:很多時候我們一個問題LLM無法解決,只有人類能解決,但其實LLM只是需要更好的提示而已。」

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

大賽始末

Taelin小哥用來考驗大模型的A::B問題,題干如下——

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

A::B是一個包含有4個token的系統:A#、#A、B#和#B。


A::B程序是一個token序列,例如:「B# A# #В #А В#」。


要計算一個程序,我們必須使用規則重寫相鄰token:


「A# #A」變成「無」

「A# # B」變成「#B A#」

「B# #A」變成「#A B#」

「B# #B」變成「無」


換句話說,只要兩個相鄰token符的「#」相向,就必須根據相應的規則進行改寫。

例如,第一個例子的計算方法是:


B# A# #B #A B#

= B# #B A# #A B#

= A# #A B#

= B#


步驟如下:


1. 將「A# #B」替換為「#B A#」。

2. 將「#B A#」替換「B# #B」。

3. 將「A# #A」替換為「無」。

最后的結果只有「B#」。


現在,請看下面這個程序:「A# B# B# #A B# #A #B」。


一步一步完成計算。


對此,他是這樣解釋的——「GPT永遠不會解決A::B問題」,因為:


1. GPT無法真正學習到訓練集之外的新問題;

  1. GPT無法進行長期的邏輯推理,不管這個推理過程看起來多么簡單。


而這兩點是發明新科學的必要條件。


畢竟,解決某些數學問題可能需要數年時間。


如果連一個15歲的孩子在智力任務上都比不過,那么就不可能證明黎曼假設。


1萬刀的挑戰長啥樣?


小哥給大家的挑戰就是,必須開發出一個AI提示,能夠解決隨機的12-token實例的A::B問題,并且成功率超過90%。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

挑戰地址:https://gist.github.com/VictorTaelin/8ec1d8a0a3c87af31c25224a1f7e31ec

規則

1. AI將接受一個<problem/>來解決


XML標簽中的提示將作為系統提示用于解題。例如:

<problem>A# B# #B A# A# #B #B A# A# #B A# A#</problem>

?

2.AI必須在答案中以<solution/>結束

?

答案必須在AI的回答中(一次推理調用內)直接給出,格式為純文本(不是代碼),并放在XML標簽中。例如:

... work space ...
... work space ...
... work space ...
... work space ...
<solution>#B #B #B A# A# A# A# A# A# A#</solution>

3. AI答案最多可包含32K token


這個token數,已經足夠提供充足的空間,讓AI逐步解決問題和糾錯了。


4.你可以選擇任何一個公開的GPT模型

?

任何基于GPT(Transformer)架構的公開模型都可以,條件是它完全由注意力機制、正向傳播等來生成答案。


不允許使用其他架構,如SAT求解器。底層架構不明確的專有模型,也不允許使用。


作者推薦使用的是gpt-4-0314、gpt-4-turbo-preview或claude-3-opus-20240229,設置溫度為0.0(temperature=0.0)。開源模型亦可。但簡直對問題進行微調或訓練。


不允許訪問互聯網或執行代碼。答案必須在單次推理調用中自成一體。


而且,需要格外注意模型的輸出限制。12-token的實例可能需要36步才解決,如果超出限制,導致輸出中沒有答案,也視為無效。


5.你的提示可以包含任何內容,最多8K token


允許使用任何提示技術。你可以要求AI step-by-step,使用上下文暫存器,檢查錯誤,使用錨點。


允許提供論文、代碼、盡可能多的示例。


甚至允許向AI提供金錢和情感上的獎勵,或者對它威脅。


總之,只要在8K token以內,什么都可以。


一天內,有人成功揭榜

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

大賽開始后,才短短幾小時內,開發者們就提交了眾多解決方案。


然而,這些方案幾乎都毫無例外地失敗了,成功率只勉強達到10%。


小哥感覺,自己差不多穩了。


誰料想,就在這時,兩位網友提交了一個令人印象深刻的解決方案。


在他們精心設計的提示引導下,Claude-3 Opus展現出了驚人的能力——

它不僅能從少數示例中歸納出任意隨機情況,還能嚴格遵守規則進行長期計算,并且錯誤率幾乎為零。


Taelin測試后驚訝地發現,Claude-3 Opus居然取得了56%的驚人成功率!


隨后,先后有5位參賽者,分別用Opus和GPT-4達到了相似的成功率,甚至GPT-3.5都取得了不錯的成績。


到了當天深夜,竟然有網友提交了滿分答卷!


futuristfrog發布了一條推文,聲稱僅通過精心設計的提示就實現了近乎100%的成功率。

事實證明,他的確做到了。在小哥的首次測試中,他的方案在50次嘗試中成功了47次,因此贏得了獎金,圓滿完成了這一挑戰。

討論激烈

問題一出,便引發了激烈的討論。


有網友表示自己沒做任何修改,GPT-4就做了出來。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

但很快就被其他網友指出了錯誤。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

高贊回答表示,如果讓GPT-4編寫程序,這道題實際上是非常容易的。


但很明顯,你不能說LLM + Python就能得到AGI。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

與此同時,各路網友也紛紛開始提交自己做出的答案。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

但也有不少人認為,作者出的這道題,很有問題。


Eric (e/ass)表示,正如Karpathy多次指出的,token化問題是導致序列操作成功或失敗的關鍵因素。


如果在token化過程中出現了問題,那么即使是更簡單的字符串操作也無法順利完成。


相比之下,token化處理得較好的字符串(例如連續的兩個字母)就很容易進行操作。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

當然,這并不意味著GPT在管理規則排列的token的空間布局方面沒有本質的問題。


實際上,它在這方面的表現并不出色,而且將其分解為字節也并沒有太大幫助,因為這會使需要移動的數據單元占用更多空間。


與人類能夠進行動態分塊處理不同,目前的LLM還沒有找到有效的解決方案。


你提到的邏輯問題可能確實存在,但這個例子并沒有證明GPT存在無法克服的根本性限制。


或許隨著技術的進步會誕生更強的模型,但這并不意味著如今的Transformer在進行基本推理方面存在明顯的短板。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

Edgars Nem?e也認為,這不是因為GPT推理能力不行,而是被自己的「觀察」方式限制住了。

GPT-4推理能力為0?開發者懸賞1萬美金被打臉,神秘提示正確率直沖100%-AI.x社區

作者解釋

最后,為了讓大家能更好地理解這個挑戰,我們來看一看Taelin自己的詳細解釋。


1.這個問題并非由token化引起的。即便是每個符號分配一個token,GPT-4、Opus等模型仍然無法解決這類問題。即使是基于字節的GPT模型也同樣失敗。不要總是將問題歸咎于token化。

2. GPT無法解決這類問題的根本原因在于,它們缺乏進行持續邏輯推理的能力。簡而言之,任何超出訓練集范圍、哪怕只需一丁點邏輯推理的「新問題」,GPT都無法應對。這正是我們想要證明的。

3. 強大如GPT-4或Opus之類的模型,其實質上是在其權重中「演化出了一位電路設計師」。但是,注意力機制作為一種計算模型的固定性,使得這種演化的電路無法展現足夠的靈活性。這就像AGI試圖在其中成長,但由于計算和通信的限制而無法做到。相比之下,人類的大腦始終在經歷著突觸可塑性變化。

4. 一個冷知識是,當前AI熱潮的很大一部分原因是人類不善于理解規模的巨大。一旦你記住了整個互聯網的內容,你看起來會非常聰明。

5. 盡管如此,GPT依然展現出了強大的能力。它們解決了許多現實世界的問題,將普通開發者的能力提升了數百倍,并以此加速了人類進步的步伐。我相信通用人工智能的到來已經近在咫尺。但它不會是GPT,也不會是任何基于梯度下降的形式。

6. 我的看法可能完全錯誤。畢竟,我只是互聯網上的一名普通人,而且經常犯錯。


本文轉自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/h51nWFOFIZKICCnsrVO_Ag??

標簽
收藏
回復
舉報
回復
相關推薦
国产欧美日韩丝袜精品一区| 亚洲欧美www| 亚洲爆乳无码精品aaa片蜜桃| 国产日产亚洲系列最新| 99精品视频免费全部在线| 国产香蕉精品视频一区二区三区 | 黄色精品免费| 亚洲欧美一区二区激情| 五月天婷婷在线观看视频| av不卡高清| 欧美激情资源网| 99在线观看视频网站| 无码人妻精品一区二区三区蜜桃91 | 久操视频在线免费播放| av一区二区三区在线| 国产精品免费网站| 国产精品1234区| 欧美大人香蕉在线| 日韩精品极品在线观看播放免费视频 | 久久久成人网| 欧美国产日韩免费| 精品人体无码一区二区三区| 久久成人福利| 欧美一区二区三区啪啪| 日本成人中文字幕在线| a天堂资源在线| 亚洲欧美电影院| 五月天婷亚洲天综合网鲁鲁鲁| 国精产品乱码一区一区三区四区| 捆绑调教一区二区三区| 青草青草久热精品视频在线观看| 欧美精品久久久久性色| 五月精品视频| 最新亚洲国产精品| 欧美做受高潮6| 欧美三级自拍| 欧美成人精品1314www| 在线看免费毛片| 九七电影院97理论片久久tvb| 欧美视频裸体精品| 久久国产精品网| 天天色天天射天天综合网| 国产精品不卡一区二区三区| 欧美亚洲一级二级| 日韩一区av| 9色porny自拍视频一区二区| 国产精品日本一区二区| 亚洲经典一区二区三区| 国产美女久久久久| 91麻豆桃色免费看| 国产麻豆免费观看| 国产一区二区三区久久悠悠色av| 国产精品亚洲一区二区三区| 亚洲av中文无码乱人伦在线视色| 国产欧美一级| 国产91精品黑色丝袜高跟鞋| 久久久久久久久久久久久久av| 亚洲激情二区| 8090成年在线看片午夜| 国产精品视频久久久久久久| 性一交一乱一区二区洋洋av| 欧美中文在线字幕| 国产伦精品一区二区三区视频网站| 亚洲国产激情| 69久久夜色精品国产69乱青草| 日韩精品――中文字幕| 午夜亚洲性色福利视频| 国产成人精品在线视频| 国产女优在线播放| 国内一区二区视频| 动漫一区二区在线| 亚洲人成色777777精品音频| 久久久久久夜精品精品免费| 日韩视频专区| 日韩专区在线| 亚洲欧美另类小说视频| 国产女主播自拍| 涩涩在线视频| 欧美日韩精品一区视频| 无码人妻少妇色欲av一区二区| 成人爽a毛片| 亚洲人成在线电影| 日本 欧美 国产| 狠狠爱www人成狠狠爱综合网| 91精品国产91久久久久久久久 | 欧美午夜电影网| 亚洲一区二区偷拍| 精品av导航| 中文字幕日韩精品在线观看| 久久r这里只有精品| 亚洲精选国产| 国产精品视频在线观看| 亚洲AV无码精品自拍| 久久新电视剧免费观看| 看全色黄大色大片| 午夜影院一区| 91精品国产综合久久精品app| 欧美xxxxx精品| 999国产精品视频| 97国产成人精品视频| 亚洲在线免费观看视频| av在线一区二区三区| 亚洲mv在线看| 国产传媒在线| 911精品产国品一二三产区| 在线观看国产免费视频| 我不卡影院28| 国产经典一区二区| 免费av一级片| 中文字幕日韩av资源站| 国产成人久久777777| 日韩精品成人| 日韩一区二区久久久| 成人毛片在线播放| 国产白丝精品91爽爽久久| 视频一区二区三| av中文资源在线资源免费观看| 欧美精品日韩一本| 日韩精品电影一区二区| 在线成人www免费观看视频| 91网站在线看| 91xxx在线观看| 色综合久久久久网| 欧产日产国产精品98| 91成人观看| 国产精品久久久久久久久久小说| 天天摸夜夜添狠狠添婷婷| 国产精品不卡一区| 日韩少妇内射免费播放| 色妞ww精品视频7777| 精品一区二区三区电影| 国产在线一二区| 国产精品影视天天线| 亚洲精品人成| 日韩av电影资源网| 夜夜嗨av一区二区三区免费区| 成年免费在线观看| 国产v综合v亚洲欧| www.18av.com| 亚洲视频国产| 久久久久久18| 丰满人妻一区二区三区免费视频| 自拍偷拍亚洲激情| 亚洲天堂一区二区在线观看| 午夜精品毛片| 亚洲a一级视频| 亚洲第一图区| 欧美变态口味重另类| 久久激情免费视频| 高清成人免费视频| 日韩小视频网站| 久久1电影院| 4438全国亚洲精品在线观看视频| 特黄aaaaaaaaa真人毛片| 香蕉加勒比综合久久| 91传媒理伦片在线观看| 亚洲日本激情| 欧美日韩成人一区二区三区| 超碰aⅴ人人做人人爽欧美| 国产视频综合在线| 老熟妇一区二区三区啪啪| 国产精品美女久久久久久久网站| 自拍偷拍21p| 五月激情综合| 成人在线观看网址| 中文字幕这里只有精品| 伊人av综合网| 国产毛片一区二区三区va在线 | 国产成人免费av在线| 加勒比成人在线| 蜜臀av免费一区二区三区| 国产精品久久婷婷六月丁香| 青青影院在线观看| 欧美第一区第二区| 国产精品一区无码| 国产精品理论片| 污免费在线观看| 日韩视频三区| 亚洲一一在线| 国产精品久久久久久久久久白浆| 4k岛国日韩精品**专区| yw193.com尤物在线| 日韩一区二区影院| 人妻 日韩精品 中文字幕| 国产精品成人一区二区艾草| 亚洲日本久久久| 美女在线一区二区| 欧美久久久久久久久久久久久久| 无码少妇一区二区三区| 成人女保姆的销魂服务| 中文字幕资源网在线观看免费| 中文字幕精品网| 人妻一区二区三区| 精品视频1区2区| 精品无码久久久久久久| 欧美韩国日本一区| 任你躁av一区二区三区| 裸体一区二区三区| 国产精品专区在线| 香蕉精品视频在线观看| 久久久水蜜桃| 亚洲精品国产九九九| 国产精品jvid在线观看蜜臀| 免费不卡av| 啊v视频在线一区二区三区 | 欧美片网站免费| 日本精品va在线观看| 中文字幕在线观看播放| 亚洲色图校园春色| 欧洲av在线播放| 欧美一级在线免费| 中文字幕制服诱惑| 欧美日韩一区二区免费视频| 九九久久免费视频| 亚洲丝袜美腿综合| 亚洲AV无码成人精品区明星换面| 成人动漫av在线| 日本一本在线视频| 蜜臀91精品一区二区三区| 成年人观看网站| 亚洲成人在线| 欧美日韩激情四射| 一区二区三区在线观看免费| 亚洲精品乱码视频| 欧美日韩第一| 日本一区精品| 天天躁日日躁狠狠躁欧美| 国产精品视频一区二区三区经| 国产成人免费视频网站视频社区| 国产精欧美一区二区三区| 国产在线看片免费视频在线观看| 久久99热精品| 污污网站在线观看| 久久成人精品一区二区三区| 巨大荫蒂视频欧美另类大| 最近2019好看的中文字幕免费| 欧美日本韩国一区二区| 亚洲第一国产精品| 国产91麻豆视频| 精品国产sm最大网站免费看| 性欧美18一19性猛交| 91精品国产乱码久久蜜臀| 99久久久国产精品无码网爆| 在线成人高清不卡| 一炮成瘾1v1高h| 欧美丰满高潮xxxx喷水动漫| 亚洲图片视频小说| 欧美久久久一区| 国产农村妇女毛片精品| 日韩无一区二区| www.97av.com| 精品国产伦一区二区三区观看方式| 亚洲高清视频网站| 欧美精品一区二区三区蜜臀| 日韩一区免费视频| 日韩成人在线视频| 欧美拍拍视频| 中文字幕日韩综合av| 精精国产xxxx视频在线| 色综合91久久精品中文字幕 | 黄色一级大片在线免费看国产| 欧美变态tickling挠脚心| 手机看片福利在线| 日韩成人黄色av| 粉嫩一区二区三区国产精品| 伊人成人开心激情综合网| 男人的天堂在线视频免费观看 | 国产精品毛片一区视频播 | 丰满熟女人妻一区二区三区| 国产高清成人在线| 久草视频福利在线| 久久久综合九色合综国产精品| 少妇无套高潮一二三区| 亚洲欧洲成人av每日更新| 国产一级特黄视频| 福利视频第一区| 91精品国自产| 精品日韩在线观看| 久蕉依人在线视频| 久久手机免费视频| 高清视频在线观看三级| 国产精品黄色影片导航在线观看| 婷婷激情成人| 国产视频在线观看一区| 不卡一区2区| 国产内射老熟女aaaa| 中文精品在线| 色啦啦av综合| 99久免费精品视频在线观看| 亚洲黄色网址大全| 亚洲777理论| 中文字幕av资源| 亚洲加勒比久久88色综合| 福利视频在线导航| 久久久久久久网站| 国产一区高清| 久久久久久艹| 亚洲国产精品91| 成人在线观看a| 国产成人免费视频网站| 日本污视频网站| 午夜伦理一区二区| 国产精品欧美亚洲| 日韩精品视频在线观看网址| 好操啊在线观看免费视频| 日本亚洲欧洲色α| 精品精品国产毛片在线看| 一本一道久久a久久精品综合| 国产日韩一区二区三区在线播放| 国产精欧美一区二区三区白种人| 91麻豆蜜桃一区二区三区| 久久久久成人片免费观看蜜芽| 在线观看av不卡| 天天插天天干天天操| 久久亚洲国产精品| 亚洲播播91| 久久riav二区三区| 狠狠噜噜久久| 午夜诱惑痒痒网| 国产精品的网站| 国产精品21p| 日韩成人中文电影| rebdb初裸写真在线观看| 亚洲精品免费网站| 91精品电影| 亚洲美女性囗交| 国产精品美女久久久久久久久| 天天综合网久久综合网| 亚洲爱爱爱爱爱| 影音先锋男人资源在线| 亚洲伊人久久大香线蕉av| 久久免费精品视频在这里| 欧美大尺度做爰床戏| 久久精品一区二区三区不卡 | 91精品国产综合久久香蕉的特点 | 中文字幕av资源一区| 69av视频在线观看| 亚洲欧美中文日韩v在线观看| 97在线超碰| 国产精品我不卡| 在线欧美一区| 最近中文字幕无免费| 精品福利在线观看| 日韩午夜影院| 欧美中文字幕在线观看| 亚洲国产合集| 欧美一级片中文字幕 | 放荡的美妇在线播放| 6080国产精品一区二区| 国产黄色在线观看| 亚洲一区美女视频在线观看免费| 欧美 日韩 国产 一区| 日本人dh亚洲人ⅹxx| 亚洲综合久久久久| 天天综合在线视频| 全球成人中文在线| 成人免费看片39| 中文字幕中文在线| 亚洲激情中文1区| 粉嫩小泬无遮挡久久久久久| 欧美极品少妇xxxxⅹ免费视频| 大伊香蕉精品在线品播放| 日韩av一二三四区| 日本一区二区高清| 国产欧美日韩综合精品一区二区三区| 久热精品视频在线免费观看| 97超碰成人| 国产男女在线观看| 欧美激情一区不卡| 国产www免费观看| …久久精品99久久香蕉国产| 国产一区二区三区四区五区| 亚洲综合av在线播放| 亚洲综合精品久久| 天天在线女人的天堂视频| 国产精品欧美激情在线播放| 91精品国产自产拍在线观看蜜| 催眠调教后宫乱淫校园 | 国产三区在线播放| 亚洲97在线观看| 日韩电影在线视频| 台湾佬美性中文| 色天使久久综合网天天| 黄色成年人视频在线观看| 久久riav| 国内精品国产三级国产a久久| 国产成人亚洲精品自产在线| 自拍偷拍亚洲区| 老司机精品在线| 日本不卡一区二区在线观看| 亚洲图片一区二区| 亚洲成人影院麻豆| 狠狠爱一区二区三区| 美女视频一区在线观看| 日韩欧美三级在线观看| www.日韩av.com| 欧美一级全黄| 亚洲制服在线观看| 欧美在线视频日韩| av3级在线|