精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4.5被DeepSeek 500倍吊打!基準測試全班墊底,OpenAI痛失護城河

人工智能 新聞
GPT-4.5上線一天,已經引起了集體群嘲:這個模型徹頭徹尾失敗了,OpenAI已經陷入嚴重困境,失去護城河!有人算出,GPT-4.5比DeepSeek V3貴了500倍,性能卻更差。有的權威AI預測者看完GPT-4.5,氣得直接把AGI預測時間推后了……當然了,OpenAI并不這么認為。

自從OpenAI發布GPT-4.5之后,Ilya這張圖又開始火了。

GPT-4.5令人失望的表現,再次印證了Ilya這句話的含金量:預訓練已經達到極限,推理Scaling才是未來有希望的范式。

GPT-4.5在基準測試上并沒有提升,推理沒有增強,只是變成了一個更易于合作、更有創造性、幻覺更少的模型。

GPT-4.5的「失敗」更加證明,Ilya是對的。

現在,各方評測都已經出爐,結果顯示,OpenAI實在是太打臉了。

從ARC-AGC的評估上來看,GPT-4.5幾乎跟GPT-4o處于同一水平,智能上似乎沒有任何提升。

紐約大學教授馬庫斯直接發長文痛批:GPT-4.5就是個空心漢堡。

一位AI初創CEO更是直言:在自己心目中最實用評估基準Aider Polyglot上,OpenAI的「鎮國之寶」GPT-4.5,比DeepSeek-V3貴了500倍,但表現反而更差。

如果這個結果準確,那OpenAI將陷入嚴重困境,甚至是徹底失去護城河!

與此同時,國內這邊DeepSeek連續6天給人們帶來了開源暴擊,R1模型直接減價75%。

總之,在DeepSeek、xAI Grok 3、Anthropic首個混合模型Cluade 3.7 Sonnet等的前后夾擊之下,OpenAI這位昔日明星,如今顯然已風光不再。

「GPT-4.5真這么差?我不會看錯了吧」

正如上文所提,剛剛那位AI初創CEO在看到下面這張圖表后,感覺實在難以置信,因為GPT-4.5 Preview的表現,直接全班墊底。

為此,他還求證了表格制作者,對方表示自己仔細檢查了性能數據,進行了多次運行,能保證每個結果都是對的。

GPT-4.5比GPT-4基礎模型多出了10倍的預訓練計算量,但卻什么都不擅長,這合理嗎?

有人猜測說,GPT-4.5可能并沒有經過太多的監督微調,因為OpenAI本來是打算將其作為未來模型(如GPT-5)的基礎模型或教師模型,用于進一步通過強化學習進行微調的。

可能是這個原因,導致它在代碼的指令遵循上不算特別強。

   

或者,問題可能出在了數據混合上,因為OpenAI這次采用了一種全新的訓練機制,所以可能有某種「成長痛」。

不過令人心涼的是:OpenAI內部許多能做到這件事的人,如今已經走了。

有人直接開麥表示:「如果DeepSeek能有OpenAI的資金量,那我們就完蛋了」。

還有人調侃道,這可能就是所謂的「用智商換情商」吧。

不管怎么說,在大家眼中,OpenAI的先發優勢已經不復存在了。

馬庫斯:OpenAI徹底失去護城河

馬庫斯轉發了這個結果驚人的研究后表示,不管OpenAI在兩年前有什么優勢,如今他們已經徹底失去了護城河。

雖然他們現在仍擁有響亮的名字、大量數據和眾多用戶,但相對競爭對手并未擁有任何決定性的優勢。

Scaling并沒有讓他們走到AGI的終點。GPT-4.5非常昂貴,GPT-5也失敗了。

所有人都開始疑問:OpenAI能拿出的,就只有這么多了?

現在,DeepSeek已經引發了一場價格戰,削減了大模型的潛在利潤。而且,目前還沒有任何殺手級應用出現。

在每一次模型的響應中,OpenAI都在虧損。公司的燒錢速度如此之快,但資金鏈卻有限,連微軟也不再完全支持他們了。

如果不能快速轉型為非營利組織,一大筆投資就會變成債務。

而且,Ilya、Murati、Schulman……許多頂尖人物已經離開。

如果孫正義改變主意,OpenAI就會立刻面臨嚴重的現金問題(馬斯克有一句話說對了,星際之門的很大一部分資金,他們并沒有拿到手)。

總之,在推出ChatGPT上,奧特曼確實是那個正確的CEO,但他并沒有足夠的技術遠見,帶領OpenAI邁向下一個階段。

在這篇《GPT-4.5是個空心漢堡》中,馬庫斯也再次強調:Scaling已經撞墻了。

在GPT-4.5發布前,他就預測將是一場空歡喜,而LLM的純粹Scaling(無論是增加數據量還是計算)已經撞墻。

在某些方面,GPT-4.5還不如Claude上一個版本的模型。

甚至第一次出現了這種情況:頗受尊敬的AI預測師感到極度失望,以至于推遲了自己對于AGI何時到來的預測時間。

而奧特曼在產品發布上的異常冷靜,就更耐人尋味了。

他沒有像往常那樣大肆宣傳AGI,而是承認了大規模模型的成本,卻對AGI完全避而不提。

總之,馬庫斯表示,自己在2024年的預測依然強勁——

耗費五千億美元后,依然沒人找到可行的商業模式,除了英偉達和一些咨詢公司之外,沒人獲得了可觀的利益。

沒有GPT-5,沒有護城河。

「Scaling是一個假設,我們投入了相當于阿波羅計劃兩倍的資金,但至今并未取得太多實質性成果。」

GPT-4.5:不求最好,但求最貴

總之,從輸入價格來看,GPT-4.5可謂是貴到離譜:

  • o1的5倍
  • GPT-4o的30倍
  • o3-mini的68倍
  • DeepSeek-R1的137倍
  • DeepSeek-V3的278倍

但正如前文所說,作為「最貴」模型的GPT-4.5,在表現上卻不是「最好」的。

跑分一個第1都沒有

由知名華裔億萬富翁Alexandr Wang創辦的Scale AI,定期會更新一套基于私有數據集的LLM排行榜SEAL,目前首頁上共有15個。

然而,在這波最新的排名中,GPT-4.5 Preview竟然沒有一項取得第一!

全場最佳成績,是智能工具使用(Chat)項目的亞軍——略強于Claude 3.7  Sonnet,但次于上一代GPT-4o。

接下來,GPT-4.5在EnginmaEval,Agentic Tool Use(Enterprise)兩個項目上,取得第3。

其中,前者需要創造性地解決問題和綜合不同領域信息的能力;后者評估模型工具使用的熟練程度,特點是需要將多個工具組合在一起。

分別輸給了自家的o1/o1-preview和競爭對手最新的Claude 3.7 Sonnet(Thingking)。

在MultiChallenge中,排名第4,輸給了o1、Claude 3.5 Sonnet和3.7 Sonnet。

榜單MultiChallenge用于評估LLM與人類用戶進行多輪對話的能力,考察LLM的指令保留、用戶信息推理記憶、可靠版本編輯和自我一致性等4方面上的指令遵循、上下文分配和在上下文中推理的能力。

在「人類最后一次考試」中,排在第5。

這次,它不僅輸給了Anthropic的Claude,就連Gemini也騎在了它的頭上。甚至,還是Flash版本。

顧名思義,這里測試的是LLM推理深度(例如,世界級數學問題)及其學科領域的知識廣度,提供對模型能力的精確測量。目前,還沒有模型的真確率能達到10%。

千萬不要用來編程

根據Aider的LLM編程排行榜,OpenAI旗下AI模型性價比都不高,而GPT-4.5是性價比最差的。

創立AI公司的Enrico則表示,除非你愿意做「冤大頭」或「人傻錢多」,否則在編程中不要使用GPT-4.5。

但其實,這些現象或許也在情理之中,畢竟按照OpenAI的說法,這次既不看智商也不看性能,而是強調「啥都懂」和「情商高」。

OpenAI首席研究官:我們還能Scaling!

雖然外面的爭論異常激烈,但在OpenAI首席研究官Mark Chen看來,GPT-4.5的發布正是說明模型在規模上的Scaling還沒達到極限。

同時,對OpenAI而言,GPT-4.5也是對那些質疑「Scaling模型規模可以繼續取得進展」的回應:

「GPT-4.5實實在在地證明了我們可以繼續沿用Scaling Law,并且代表著我們已經邁入了下一個數量級的發展階段。」

預訓練和推理,兩條路并行

如今,OpenAI正沿著兩個不同的維度進行Scaling。

GPT-4.5是團隊在無監督學習上最新的擴展實驗,與此同時,團隊也在推進推理能力的進展。

這兩種方法,是相輔相成的:「為了構建推理能力,你首先需要知識基礎。模型不能盲目地從零開始學習推理。」

相比起推理模型,擁有更多世界知識的GPT-4.5,在「智能」的體現方式上完全不同。

使用規模更大的語言模型時,雖然需要更多時間處理和思考用戶提出的問題,但它依然能夠提供及時的反饋。這一點與GPT-4的體驗非常相似。而當使用像o1這樣的推理模型時,它需要先思考幾分鐘甚至幾分鐘,才會作答。

對于不同的場景,你可以選擇一個能夠立即回應、不需要長時間思考但能給出更優質答案的語言模型;或者選擇一個需要一段時間思考后才能給出答案的推理模型。

根據OpenAI的說法,在創意寫作等領域,更大規模的傳統語言模型,在表現上會顯著優于推理模型。

此外,相比于上一代GPT-4o,用戶在60%的日常使用場景中也更喜歡GPT-4.5;對于生產力和知識工作,這一比例更是上升到了近70%。

GPT-4.5符合預期,沒有特別困難

Mark Chen表示,OpenAI在研究方法上非常嚴謹,會基于所有之前訓練的LLM創建預測,以確定預期的性能表現。

對于GPT-4.5來說,它在傳統基準測試上展現出的改進,和GPT-3.5到GPT-4的躍升可以說十分類似。

除此之外,GPT-4.5還具備了很多新的能力。比如制作早期模型都無法完成的——ASCII Art。

值得一提的是,Mark Chen特別指出——GPT-4.5在開發過程中并沒有特別困難。

「我們所有基礎模型的開發都是實驗性的。這通常意味著在某些節點停止,分析發生了什么,然后重新啟動運行。這并非GPT-4.5特有的情況,而是OpenAI在開發GPT-4和o系列時都采用的方法。」


責任編輯:張燕妮 來源: 新智元
相關推薦

2025-03-03 07:39:23

2025-06-18 16:44:27

2023-08-02 00:19:46

2024-05-06 08:25:00

2023-12-18 15:08:00

GPTOpenAI泄露

2025-02-28 07:35:01

2025-02-18 09:21:21

2025-02-10 01:00:00

OpenAIGPT-5GPT-4.5

2025-02-28 08:20:00

2025-04-03 10:00:52

2025-03-26 09:16:05

AI模型訓練

2025-04-27 00:00:01

2023-12-15 18:53:48

GPT-4.53D信息

2025-02-13 08:38:42

2025-02-28 13:01:06

2025-02-28 07:07:43

2025-03-03 08:35:00

DeepSeek模型AI

2021-06-23 14:12:22

SaaS護城河頭部企業

2012-10-24 13:53:25

2017-10-17 06:03:42

點贊
收藏

51CTO技術棧公眾號

国产色一区二区三区| 91超碰rencao97精品| 国产精品毛片一区二区| 久久69成人| 亚洲综合一二区| 狠狠色噜噜狠狠色综合久| 亚洲黄色免费观看| 亚洲国产不卡| 亚洲欧美日韩成人| 欧美视频亚洲图片| 亚洲天堂电影| 亚洲免费在线播放| 欧美最大成人综合网| 99精品久久久久久中文字幕| 国产日韩欧美一区在线| 中文字幕亚洲无线码在线一区| 性久久久久久久久久久久久久| 欧美一级鲁丝片| 中文字幕一区日韩精品欧美| 国产三区精品| 国产精品一区二区免费视频| 久久动漫亚洲| 欧美激情综合色| 自拍偷拍你懂的| 日韩高清一级| 欧美xxxx在线观看| 日韩av片免费观看| av成人免费| 精品国产乱码久久久久久虫虫漫画| 午夜精品亚洲一区二区三区嫩草 | 91久久亚洲| 久久精品夜夜夜夜夜久久| 国产交换配乱淫视频免费| 粉嫩一区二区三区四区公司1| 在线电影欧美成精品| 日本成人黄色网| 亚洲天堂电影| 欧美视频免费在线观看| 2019日韩中文字幕mv| 黄色网址在线免费播放| 欧美极品少妇xxxxⅹ高跟鞋 | 亚洲aⅴ乱码精品成人区| 国产很黄免费观看久久| 91夜夜揉人人捏人人添红杏| 在线观看中文字幕码| 国产偷自视频区视频一区二区| 欧美国产在线视频| 2021亚洲天堂| 欧美不卡高清| 欧美激情精品久久久久| www欧美com| 亚洲中无吗在线| www.xxxx欧美| 国产精品嫩草影院俄罗斯| 国产精品97| 久久精品电影网| 国产极品美女在线| 中文在线播放一区二区| 欧美乱大交做爰xxxⅹ性3| 丁香花五月激情| 欧美日韩视频| 美女av一区二区| 久久久久久久极品内射| 激情欧美亚洲| 91av中文字幕| 无码人妻精品一区二区三区蜜桃91 | 丁香六月综合激情| 国产二区不卡| 五月婷婷伊人网| 久久九九久精品国产免费直播| 青娱乐国产91| 麻豆传媒视频在线| 亚洲老司机在线| 日韩精品在线观看av| av资源网在线播放| 日本道色综合久久| 一二三级黄色片| 91亚洲无吗| 日韩激情视频在线| 亚洲色图欧美色| 中文字幕一区二区精品区| 欧美极品少妇xxxxⅹ喷水 | 亚洲国产精品精华素| 亚洲一区二区在线观看视频| 久久久久免费看黄a片app| а√天堂官网中文在线| 亚洲免费在线电影| 青青草精品视频在线| 一区二区三区短视频| 在线亚洲高清视频| gogo亚洲国模私拍人体| 免费av一区| 久久久国产91| 久久一区二区三区视频| 日本欧美久久久久免费播放网| 成人精品在线视频| 亚洲 小说区 图片区 都市| 国产精品天干天干在线综合| 伊人再见免费在线观看高清版 | 久久久亚洲欧洲日产国码aⅴ| www.com国产| 国产激情一区二区三区| 欧美在线一区二区三区四区| 国产激情视频在线观看| 欧美香蕉大胸在线视频观看| 国产欧美激情视频| 欧美激情在线免费| 欧美肥臀大乳一区二区免费视频| 国产精品suv一区| 国产成人自拍网| 日韩在线三区| 国产h片在线观看| 7777精品久久久大香线蕉| 香蕉视频黄色在线观看| 欧美国产高清| 成人xvideos免费视频| 日本福利片在线| 亚洲一区二区黄色| 三日本三级少妇三级99| 国产亚洲一区| 97视频在线看| 丁香花免费高清完整在线播放| 国产偷国产偷亚洲高清人白洁| 欧美在线一区视频| 榴莲视频成人app| 日韩小视频在线观看| 久久精品视频2| 91亚洲国产成人精品一区二区三| 中国女人做爰视频| www.久久热| 日韩综合视频在线观看| 小泽玛利亚一区二区三区视频| www.亚洲在线| 国产成人永久免费视频| 人人爱人人干婷婷丁香亚洲| 久久视频国产精品免费视频在线| 中文字幕 国产精品| 久久一夜天堂av一区二区三区| 国产 欧美 日韩 一区| 日本一区二区乱| 草民午夜欧美限制a级福利片| 这里只有精品6| 欧美国产一区在线| 不卡av免费在线| 精品一区二区三| 国产精品第一页在线| 美州a亚洲一视本频v色道| 欧美日韩免费网站| 黄色正能量网站| 日韩在线一区二区三区| 日韩电影免费观看在| 国产精品久久久久久久久免费高清 | www.久久com| 亚洲精品小说| 99电影在线观看| 波多野结依一区| 亚洲韩国日本中文字幕| 成人免费a视频| 国产亚洲综合色| 美女少妇一区二区| 欧美r级电影| 国产一区二区在线免费| 97caopor国产在线视频| 精品国产一区二区精华| 国产又爽又黄的视频| 久久精品一区二区| 欧美成人福利在线观看| 欧美日本三区| 精品一区二区不卡| 日韩精品免费观看视频| 色偷偷偷综合中文字幕;dd| 国产精品久久久久久免费| 亚洲激情六月丁香| 加勒比精品视频| 石原莉奈一区二区三区在线观看| 影音先锋欧美资源| 91精品丝袜国产高跟在线| 66m—66摸成人免费视频| 国产精品麻豆一区二区三区| 欧美高清视频在线高清观看mv色露露十八 | 天堂网在线观看国产精品| 99伊人久久| 国产精品专区免费| yw.139尤物在线精品视频| 国产综合视频在线| 色婷婷综合激情| 国产av 一区二区三区| www日韩大片| 成人av毛片在线观看| 99精品国产福利在线观看免费| 色爱区成人综合网| 澳门精品久久国产| 国产精品美腿一区在线看| 美女尤物在线视频| 中文国产成人精品| 丰满熟妇乱又伦| 色av一区二区| 久久久久成人片免费观看蜜芽| 91女人视频在线观看| 久久6免费视频| 久久久天天操| 男人c女人视频| 日韩精品1区| 久久综合一区二区三区| 日本少妇精品亚洲第一区| 国产精品极品尤物在线观看| 成人性生交大片免费看网站| 在线播放日韩专区| 亚洲av成人无码久久精品老人 | 亚洲国产sm捆绑调教视频| 少妇一级黄色片| 91丨国产丨九色丨pron| www.久久com| 麻豆精品国产传媒mv男同| 国产精品沙发午睡系列| 午夜日韩在线| 中文精品视频一区二区在线观看| 欧美一区二区三区红桃小说| 99在线首页视频| 亚洲欧美一级| 国产精品爱啪在线线免费观看| 国语对白在线刺激| 久热精品在线视频| 五月婷婷在线视频| 亚洲图片制服诱惑| 青青草免费在线视频| 精品奇米国产一区二区三区| 国产免费叼嘿网站免费| 欧洲精品中文字幕| 欧美亚洲另类小说| 日韩欧美第一页| 国产99久久久| 狠狠色狠色综合曰曰| jizz国产免费| 午夜欧美一区二区三区在线播放| 一区二区在线观看免费视频| 亚洲欧洲精品成人久久奇米网| 午夜精产品一区二区在线观看的| 972aa.com艺术欧美| 国产精品无码在线| 99视频精品在线| 你懂的在线观看网站| 成人免费高清在线观看| 好吊操视频这里只有精品| 国产福利精品导航| 性一交一黄一片| 国产成人精品免费一区二区| 小日子的在线观看免费第8集| 狠狠v欧美v日韩v亚洲ⅴ| 九九热视频免费| 激情综合色播激情啊| 中文 日韩 欧美| 国产精品一级片在线观看| 一级日本黄色片| 国产传媒一区在线| 青青草视频网站| 91香蕉视频在线| 女人黄色一级片| 亚洲天堂2016| 久久精品一级片| 五月婷婷久久综合| 一级黄色免费网站| 欧美三级欧美一级| 国产又大又黑又粗| 精品国产第一区二区三区观看体验| www.五月天激情| 亚洲精品国产拍免费91在线| 日韩有码电影| 中文字幕欧美专区| 日韩特级毛片| 欧美在线日韩在线| 久久精品国产福利| www日韩av| 欧美性生活一级片| 性欧美大战久久久久久久免费观看| 99视频精品全部免费在线视频| 国产女人18毛片| 亚洲欧美久久| 日本国产一级片| 不卡一区中文字幕| www久久久久久久| 亚洲激情男女视频| 人人爽人人爽人人片av| 欧美日韩大陆一区二区| www.久久精品.com| 亚洲天堂av高清| caoporn免费在线视频| 992tv成人免费视频| 成人国产一区| 国产高清不卡av| 精品久久不卡| 免费无码毛片一区二三区| 老司机午夜精品视频在线观看| 亚洲免费黄色录像| 91在线国产福利| www.av免费| 日韩欧美精品在线观看| 国产伦精品一区二区三区视频痴汉 | 人妻互换一二三区激情视频| 久久久久久久久久久久久女国产乱| 一级片黄色录像| 欧美日韩免费在线观看| 国产乱码精品一区二三区蜜臂| 亚洲欧美在线播放| 久草在线资源站资源站| 国产在线98福利播放视频| 午夜欧洲一区| 超碰人人爱人人| 麻豆精品国产传媒mv男同| 日韩一级视频在线观看| 亚洲午夜激情av| 国产精品免费无遮挡| 亚洲一区二区福利| а√天堂8资源在线| 成人做爽爽免费视频| 精品国产乱码久久久| 免费看日本毛片| 国产99一区视频免费| 波多野结衣喷潮| 在线观看国产一区二区| 日韩三级电影网| 午夜精品久久久久久99热软件| 国产成人免费av一区二区午夜| 日本在线播放不卡| 国产日韩综合| 亚洲精品女人久久久| 亚洲蜜臀av乱码久久精品 | 97成人资源| 国产伦精品一区二区三区四区视频| 亚洲大全视频| 国产免费中文字幕| 亚洲国产高清不卡| jizz国产在线| 一本色道久久综合亚洲精品小说 | 日本vs亚洲vs韩国一区三区二区| av无码一区二区三区| 亚洲v日本v欧美v久久精品| 国内精品久久久久久久久久| 久久精品中文字幕一区| 国产原创一区| 亚洲 国产 日韩 综合一区| 日本网站在线观看一区二区三区| 国产高潮呻吟久久| 在线观看成人小视频| 成人动漫在线免费观看| 国产91精品在线播放| 伊人成综合网伊人222| aaaaaa亚洲| 亚洲国产精品ⅴa在线观看| 高潮毛片又色又爽免费 | 精品在线观看免费| 日本女人性生活视频| 欧美日韩精品免费观看视频| 一区二区高清不卡| 91性高湖久久久久久久久_久久99| 欧美成免费一区二区视频| 亚洲无在线观看| 亚洲综合色噜噜狠狠| 国产91麻豆视频| 51久久精品夜色国产麻豆| 免费看成人哺乳视频网站| 欧美三级午夜理伦三级| 中文字幕av资源一区| 国产精品九九九九| 久久97精品久久久久久久不卡| 超碰97久久国产精品牛牛| 久久久久久久中文| 欧美国产欧美综合| 国产精品热久久| 久久久久久国产精品三级玉女聊斋 | 在线视频中文字幕第一页| 国产精品一区二区三区免费| 国产精品视区| 日韩精品久久久久久久的张开腿让 | 国内精品久久影院| 九九久久婷婷| 日本高清一区二区视频| 亚洲国产精品一区二区久久| 日本私人网站在线观看| 成人国产精品久久久久久亚洲| 欧美日韩国产高清| 魔女鞋交玉足榨精调教| 欧美另类videos死尸| 123区在线| 神马影院我不卡| 成人动漫中文字幕| 中文字幕av久久爽| 欧美激情影音先锋| 不卡一区2区| 在线xxxxx| 欧美日韩精品三区| 少妇视频一区| 潘金莲一级淫片aaaaa免费看| 白白色 亚洲乱淫| 亚洲午夜激情视频| 91av国产在线| 重囗味另类老妇506070| 非洲一级黄色片| 精品国产91九色蝌蚪| 欧美激情福利|