精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時 原創

發布于 2025-10-30 13:32
瀏覽
0收藏

編輯 | 云昭

如果讓大模型去外包平臺去接單,它真的可以賺到錢嗎?

現在終于有專業的評測機構站出來公布答案了。不用硬夸AI,事實是讓它接單,它會餓死。

今天一早,大洋彼岸的“AI評測”王牌企業Scale AI剛剛發布了一項非同尋常的新指標:RLI(遠程勞動力指數)。

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區

顧名思義,就是專門用于實證評測大模型或者Agent產品能夠獨立執行真實且具經濟價值的遠程工作的能力。

它回答的是一個盤桓在AI圈上空的許久沒有解決的問題——AI真的可以自動化替代人類有價值的工作嗎?

這一基準也第一時間得到了前CEO Alexandr Wang的轉發。

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區

結果顯示,不管是GPT-5,還是Claude Sonnet、Gemini,亦或是主打通用Agent的Manus,都統統被人類接單首踩在泥土里,真實水平墊底。

1.讓大模型去賺外快,打工秒變打臉

如果讓GPT去知名接單平臺賺任務,是否真的可以賺到錢?

這個問題,最近被 Scale AI 認真地做了一遍實驗——他們推出了一個名為 “Remote Labor Index(遠程勞動指數,RLI)” 的新基準。

讓AI去干真實的自由職業工作,然后看看能不能交差。

Scale把AI模型當作真正的“打工人”,從Upwork平臺上挑了240個真實項目,涵蓋寫報告、修圖、建3D模型、做音效、寫代碼……然后給AI發任務,看它能否完成、能賺多少錢、能替代多少人工成本。

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區圖片

這些項目都是ScaleAI精挑細選出來,真能交易的項目,平均每單高達630美刀以上。

總經濟價值: 143,991 美元

項目難度和價值: RLI 項目反映了真實自由職業工作的復雜性,遠遠超過了以往的基準。

人類平均完成時間: 28.9 小時(中位數:11.5 小時)

項目平均價值: 632.60 美元(中位數:200 美元)

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區圖片

結果出來之后,全場沉默了。在RLI榜單中,所有AI模型的表現幾乎都跌到了谷底。

2.98% AI提交的項目被“老板退貨”

結果是,這240個項目,AI提交的作品,即便成績最好的選手,也僅被老板認可了6個,234個項目都被退貨了。

而更沒想到的是,這位最優生,不是GPT-5,也不是Sonnet,而是今年爆火的黑馬 Manus,自動化率為 2.5%。

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區圖片

其他模型表現更慘:

Claude Sonnet 4.5、GPT-5、Gemini 2.5 Pro、ChatGPT Agent……全部“翻車”,沒一個能穩定交付客戶滿意的作品。

而且,據ScaleAI放出的官方博文介紹,AI雖然很高產,但交付的質量實在是沒眼看,可以說全軍覆沒。平均每個項目的人類用時是28.9小時,AI花同樣的“算力時間”,多數交付品卻被判為“不合格”。

人工評審總結了失敗原因:

  • 45.6%:作品質量太差,像小學生練手。
  • 35.7%:交付不完整,視頻截斷、文件丟失。
  • 17.6%:格式錯誤、文件損壞。
  • 14.8%:視覺或邏輯不一致,比如3D建筑的不同視角完全對不上。

唯一的亮點,是在部分音頻處理和圖片生成任務中,AI能完成得像模像樣。比如做廣告圖、分離人聲這類“創意但封閉”的任務。

在同步發布的官方視頻中,美人工智能安全中心執行主任 Dan Hendrycks 和 Scale AI 研究主管Bing Liu指出:

AI完成得較好的少數任務多來自創意領域,如音頻與圖像生成,比如為游戲制作音效、剪輯配音、生成Logo等。這些領域的AI已經能與人類專業人士旗鼓相當。

但凡涉及跨文件邏輯、復雜工具鏈、長期一致性……AI都露餡了。

但更復雜的任務——那些需要多步驟執行、嚴格遵守說明、持續數小時甚至更久的項目——仍會讓最強的模型出錯。

所以,Scale團隊得出了很殘酷的結論:

“AI絕對自動化幾乎為零。”AI還遠遠不能替代專業遠程勞動。

3.這項基準報告,意義有何不同

小編看來,這項新發布的基準,意義非同尋常。

因為,要知道現在AI圈為什么非常卷?其中很大一部分原因,就在于大家一直在已有的基準評測上卷來卷去。從一開始的文科能力再到理科題目,再到今年的各種Coding、Agentic能力。

但問題是,卷來卷去,我們在實測中發現,結果想要勉強滿意,大概率都是要多次抽卡的。

所以,既然已有的測評數據集已經不能用來評估人類真正所需的模型能力,我們就必須設計一種新的評估或測評基準,一種真正可以評估如何評價智能體是否真的在做事的方法。

這也是為什么Scale AI要構建一個衡量完整自動化產出的基準,而不是只測單項技能的原因。

如果只測寫作或數學等單項技能,就無法評估AI是否能在長時間跨度內持續完成任務。模型可能在某個環節出錯,導致整體無效。這些問題在孤立技能測試中很難被捕捉。

我們希望關注那些人類需要花數小時或數天完成的任務,這樣的評估更具生態真實性,更能反映現實中的工作狀態。

畢竟,真實工作并非一連串孤立任務,它涉及上下文整合、信息綜合和跨任務協作。只有把這些因素都處理好,才能真正勝任工作。

因此,我們關注的不是AI是否能解封閉題,而是能否完成一個完整的工作流。

4.許多知名測評基準已過時

那么,究竟這樣一份“讓AI去自由職業接單平臺的測評”,跟其他知名基準,比如GDP-eval、SWE-bench 有何不同?


在采訪中,Hendrycks 給出了答案:原來那些基準要么過于封閉,要么測得不準,要么已經過時。

以“humanity's last exam”為例,那類基準是封閉題、非行動型的;而RLI是開放的、具備行為導向的。

GDP-val雖然試圖覆蓋經濟任務,但它聲稱AI已接近人類水平,這顯然不現實。如果真那樣,世界早已截然不同。

SWE-bench主要測AI在軟件工程領域(如Django類問題)的能力,但業內普遍認為,它對實際開發影響的預測力越來越低,比如對Cursor等工具的應用參考價值有限。

這些基準要么過于封閉,要么測得不準,要么已“封頂”失去預測效度。而RLI旨在更開放、更貼近經濟實況,覆蓋更廣泛的真實任務與項目。

這里,他們還提到了用合成任務來做測試集的不合理之處。“合成任務往往缺乏真實性!”

Liu Bing:為什么要在真實付費任務上測試,而不是合成任務?

Hendrycks :因為真實工作中充滿各種邊緣情況,而沒有什么比現實更復雜。若想了解AI在現實世界的影響,就必須使用包含這些復雜情境的數據集,而不是人造的“假問題”。合成任務往往缺乏真實性。比如,讓人編個“刁鉆的機器學習題目”,那只是測試數學能力,而非真實工程工作。因此,RLI要立足現實任務,涵蓋足夠多的復雜案例,才能檢驗模型在真實挑戰中的適應力。

5.智能不等于生產力

那么,這份“AI勞動績效表”,究竟該如何看待呢?

首先,需要為所有打工人慶祝一番:AI距離替代人類干活,還很遠。

Hendrycks 在采訪中指出,目前模型在RLI上準確率不足10%,這意味著,在我們測試的所有自由職業任務中,即便是最好的AI模型,也只有不到十分之一的任務能達到客戶可接受的專業水準。

這提醒我們,工作不僅僅是回答問題或生成內容,還包括理解上下文、運用工具,并完整地完成任務——而這是當前AI明顯欠缺的。

其次,這可以說是全球首次用來評估AI“干活能力”的基準。

它和以前那些論文題型的AI測試(比如MMLU、GSM8K)不同,后者主要是測智商,而RLI關注的是真實世界的交付:

能不能打開文件?能不能保存格式?

能不能從A到Z獨立完成一份交差作品?

這才是AI走出實驗室,進入社會的真正門檻。

只不過,如今的結果說明還可以說只是萬里長征第一步,人類還需要為AI收拾爛攤子。AI能生成,但它還不會交差;它可以寫文案、畫圖、寫代碼,但在整合和收尾環節一塌糊涂。

正如Hendrycks在采訪中最后所說的 ,最關鍵的一點是,AI的進步必須以真實經濟價值為衡量標準。

RLI告訴我們,“智能”并不等于“勞動”。真正的自動化,需要AI全面掌握語境、具備可靠性與判斷力。

6.暴風前的平靜:別大意,AI自動打工就在眼前

但別急著對AI失望。Scale AI 團隊發現,雖然AI“干不好活”,但進步是可測的。

他們用Elo評分體系追蹤各模型的相對表現——新一代模型比舊版有穩步提升,哪怕整體分數還低。

大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時-AI.x社區圖片

也就是說,AI距離“自動打工”雖然還遠,但它的學習曲線是清晰的。

或許當我們下次再測,Automation Rate從2.5%升到10%、30%、50%——有了新榜單可以刷,早晚,“AI勞動力市場”就真的要誕生了。

別忘了,就在昨天,剛完成重組的OpenAI就馬不停蹄的宣布了它們的3年目標:2026年9月之前,讓一個自動化的AI研究實習生在數十萬張GPU上運行,并在2028年3月之前實現真正的自動化AI研究員。

要實現這個任務,安全策略、價值觀對齊、算力、資金的問題顯然要交給OpenAI這個龐然大物去處理,但具體該如何評價“AI自動化”能力,恐怕就要從今天Scale AI提出的RLI開始了。

Ps:小編突然想到今年6月,強化學習之父Sutton在智源大會演講中提到的AI發展的新階段。

“高質量的人類數據資源已經幾乎被用到極限……

如果我們希望 AI 擁有真正的創造力和適應能力,它必須進入一個全新的階段,也就是‘經驗時代’。在這個階段,AI 不再依賴固定的數據集,而是通過自身與外部世界的交互,從中獲取經驗并不斷進化。”

那看來,從這個測評基準開始,AI真得要進入“接管真實人類派單”的經驗時代了!

論文地址也為大家扒下來了,enjoy!

論文鏈接:

??https://scale.com/research/rli????https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Remote_Labor_Index%20(4).pdf??

本文轉載自??51CTO技術棧??,作者:云昭

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
免费在线观看h片| 中文字幕无码不卡免费视频| 国产精品嫩草影院桃色| 你懂的一区二区| 亚洲成人精品视频在线观看| 亚洲中文字幕无码专区| 成人精品一区二区三区校园激情| 久久精品国产在热久久| 欧美大秀在线观看| 7788色淫网站小说| 91成人在线| 一片黄亚洲嫩模| 欧美成熟毛茸茸复古| 91麻豆成人精品国产| 激情久久久久久| 亚洲夜晚福利在线观看| 日本少妇激三级做爰在线| 日本免费一区二区六区| 亚洲欧洲国产日本综合| 久久精品日韩| 99久久国产热无码精品免费| 先锋影音国产一区| 欧美成人精品一区二区三区| aaaaa级少妇高潮大片免费看| 久久精品97| 日韩欧美在线视频| 人人妻人人澡人人爽欧美一区双| 在线激情小视频| 久久这里只有精品首页| 91av免费看| 中文字幕理论片| 国产精品综合色区在线观看| 欧美日韩国产999| 91免费在线看片| 在线日韩网站| 亚洲国产精品va在线观看黑人| 91国内在线播放| 天然素人一区二区视频| 红桃视频成人在线观看| 人妻无码一区二区三区四区| 99re在线视频| 久久美女高清视频| 鲁片一区二区三区| 亚洲 欧美 激情 另类| 国产很黄免费观看久久| 成人黄色激情网| 最近中文字幕在线观看| 天堂一区二区在线免费观看| 午夜精品一区二区三区视频免费看 | 色网在线观看| 亚洲视频一区在线| 在线视频不卡一区二区三区| av在线播放网| 国产精品丝袜在线| 亚洲精品美女久久7777777| 免费在线视频一级不卡| 久久亚洲精品国产精品紫薇| 久久精品成人一区二区三区蜜臀| 六月丁香综合网| 丁香亚洲综合激情啪啪综合| 国产成人女人毛片视频在线| 亚洲黄色片视频| 成人午夜激情片| 精品国产乱码久久久久久蜜柚| 天天综合网在线| 91麻豆福利精品推荐| 秋霞在线观看一区二区三区| 国产精品一区二区婷婷| 欧美韩国日本一区| 亚洲一卡二卡| 二区三区四区高清视频在线观看| 国产精品福利av| 日本xxx免费| 国产后进白嫩翘臀在线观看视频| 亚洲成人激情av| 欧美日韩国产精品激情在线播放| 日韩精品99| 欧美色综合久久| 在线不卡一区二区三区| 日韩欧美中文字幕在线视频 | 亚洲av激情无码专区在线播放| www.亚洲在线| 免费精品视频一区二区三区| 成人av毛片| 亚洲精品视频在线看| 欧美成人高潮一二区在线看| 欧美亚洲韩国| 91精品国产黑色紧身裤美女| 91精品啪在线观看国产| 精品久久久亚洲| 欧美成人在线影院| 国产嫩bbwbbw高潮| 韩国av一区二区三区四区| 国产精品区免费视频| 黄色片在线免费看| 亚洲精品老司机| 六月丁香激情网| 亚洲精品伦理| 亚洲精品www久久久| 中文字幕有码在线播放| 亚洲精品成人| 欧美一级免费视频| 国产男男gay网站| 91视频观看视频| 欧美性受黑人性爽| 中文在线资源| 精品少妇一区二区三区| 亚洲性猛交xxxx乱大交| 欧美99久久| 国产精品劲爆视频| 日韩中文字幕免费观看| 国产精品欧美精品| 91成人在线观看喷潮教学| 日韩黄色三级在线观看| 亚洲精品一区久久久久久| 加勒比婷婷色综合久久| 日韩高清中文字幕一区| 国产伦精品一区二区三区四区视频 | 亚洲一级大片| 中文字幕av一区二区| 日产精品久久久久| 国产乱国产乱300精品| 日本成人三级| 白浆在线视频| 日韩欧美高清在线| 成人在线观看高清| 日本va欧美va精品发布| 久久国产精品99久久久久久丝袜| 在线观看h网| 欧美日韩免费观看一区二区三区| 国产 中文 字幕 日韩 在线| 欧美精品一级| 亚洲www在线| 在线看免费av| 欧美日韩一区二区三区免费看| 亚洲一区二区三区蜜桃| 国产欧美不卡| 激情小说网站亚洲综合网| 国模雨婷捆绑高清在线| 日韩一级精品视频在线观看| 99成人在线观看| 免费在线一区观看| 日韩欧美第二区在线观看| 中文字幕在线看片| 日韩精品在线影院| √资源天堂中文在线| 99热精品国产| 日韩av综合在线观看| 日韩成人动漫在线观看| 97国产在线观看| 特黄视频在线观看| 精品日本高清在线播放| 天天躁日日躁狠狠躁免费麻豆| 欧美特黄一级| 国产日韩一区欧美| 超免费在线视频| 精品久久人人做人人爰| 国产一级在线免费观看| 波多野结衣中文字幕一区 | 日韩欧美激情四射| 黄色一级片在线免费观看| 国产福利一区二区三区视频在线| 久久视频免费在线| 亚洲一区二区三区在线免费 | 3d欧美精品动漫xxxx无尽| 亚洲欧美一区二区三区久久 | 日本不卡在线观看| 国产综合色激情| 久久精品国产免费观看| 一区二区 亚洲| 一区二区激情视频| 黄色录像a级片| 久久综合九色| 黄频视频在线观看| 91蝌蚪精品视频| 91av视频在线观看| 9色在线视频| 精品久久久久久久久久久久久久久久久| 国产性70yerg老太| 久久免费视频一区| 欧美成人手机在线视频| 伊人久久大香线蕉综合热线| 你懂的网址一区二区三区| 亚洲成人短视频| 久热在线中文字幕色999舞| 亚洲精品一区二区三区新线路| 欧美日韩国产综合新一区 | 亚洲深深色噜噜狠狠爱网站| 国产精品果冻传媒潘| 日本韩国欧美| 欧美老女人xx| 久久av少妇| 日韩欧美中文字幕精品| 国产精品白浆一区二小说| 久久久久国产精品人| 亚洲热在线视频| 99热精品在线| 自拍视频一区二区三区| 黄色成人美女网站| 成人在线观看视频网站| 国产在线观看www| 久久精品国产v日韩v亚洲| 无码精品在线观看| 337p亚洲精品色噜噜| 西西44rtwww国产精品| ●精品国产综合乱码久久久久| 香港三日本8a三级少妇三级99| 免费观看在线色综合| 欧美无砖专区免费| 婷婷亚洲五月| 欧美精品亚洲精品| 一区二区三区四区视频免费观看| 国产精品久久网| 日韩电影免费看| 欧美黄色性视频| 黄色网址在线免费播放| 亚洲天堂第二页| 日韩在线观看视频网站| 欧美一级欧美三级| 一区二区精品视频在线观看| 欧美日韩一区二区三区| 男女免费视频网站| 亚洲视频香蕉人妖| 成熟人妻av无码专区| 久久亚洲精华国产精华液| xxxwww国产| 国产成人啪免费观看软件| 国产欧美激情视频| 久久精品国产色蜜蜜麻豆| 老头吃奶性行交视频| 国产免费成人| 少妇无码av无码专区在线观看 | 国产黄色大片网站| 欧美久久久久久久久久| 真实的国产乱xxxx在线91| 欧美视频在线免费| 日韩精品一区二区三区国语自制 | 日韩人妻精品中文字幕| 精品久久久久久电影| 久久久精品人妻一区二区三区四| 亚洲欧洲三级电影| 三级黄色录像视频| 国产精品久久久久久久久免费樱桃| 熟女高潮一区二区三区| 337p粉嫩大胆噜噜噜噜噜91av| 天天躁日日躁狠狠躁av麻豆男男| 成人少妇影院yyyy| 中文字幕人妻一区| 成人中文字幕合集| 国产精品成人99一区无码 | 欧美一区二区福利在线| 国产欧美熟妇另类久久久| 91精品国产色综合久久久蜜香臀| 国产精品自拍电影| 欧美一区二区三区婷婷月色| 国产农村妇女毛片精品久久| 欧美一区二区三区在线| 亚洲高清视频网站| 亚洲国产精品福利| 水莓100在线视频| 亚洲人成绝费网站色www | 欧美日韩高清区| 久久www人成免费看片中文| 久久久久久高潮国产精品视| 日韩精品极品| 国产精品久久久久一区二区 | 久久国产精品一区二区三区四区| 天海翼精品一区二区三区| 欧洲高清一区二区| 成人系列视频| 日本中文字幕一级片| 狠狠88综合久久久久综合网| 国产超级av在线| 久久精品理论片| 欧洲熟妇的性久久久久久| 91麻豆精品视频| 中文国语毛片高清视频| 一区二区三区美女视频| 日韩av大片在线观看| 欧美在线观看一区二区| 99国产在线播放| 日韩禁在线播放| 婷婷在线视频观看| 欧美黑人巨大xxx极品| 欧美magnet| 成人精品视频99在线观看免费| 91综合久久爱com| 日韩电影免费观看在| 欧美伊人影院| 日本www.色| 国产成人亚洲综合a∨猫咪| 国产亚洲精品成人a| 国产欧美中文在线| 久久免费精彩视频| 欧美性xxxxxx少妇| 蜜桃在线一区二区| 中文字幕亚洲综合久久筱田步美 | 一区二区不卡在线播放| 中文人妻av久久人妻18| 日韩欧美中文字幕公布| 成人在线免费公开观看视频| 欧美激情一级二级| 久久久久黄色| 欧美另类一区| 国产一区亚洲| 免费看a级黄色片| 成人黄色小视频在线观看| www成人啪啪18软件| 性欧美大战久久久久久久久| 亚洲在线视频播放| 亚洲乱码国产乱码精品精天堂| av片在线观看免费| 国产精品88a∨| 日韩欧美四区| 男人天堂网站在线| 另类欧美日韩国产在线| 37p粉嫩大胆色噜噜噜| 亚洲一区av在线| 97人妻人人澡人人爽人人精品| 亚洲午夜未满十八勿入免费观看全集| 五月花成人网| 亚洲一区中文字幕| 水蜜桃久久夜色精品一区| 久久久久狠狠高潮亚洲精品| 成人精品视频一区二区三区| 欧产日产国产v| 欧美区一区二区三区| 免费在线国产| 欧美在线xxx| 日韩黄色网络| 人妻少妇精品无码专区二区| 国产成人av电影在线观看| 黄色片子在线观看| 91精品久久久久久蜜臀| 在线观看麻豆蜜桃| 国产精品一区二区三区免费视频| 伊人久久大香线蕉| 黑鬼大战白妞高潮喷白浆| a美女胸又www黄视频久久| 国产亚洲欧美精品久久久www | 91久久久精品国产| 91福利国产成人精品播放| 国产欧美日韩麻豆91| 一二三区免费视频| 国产小视频国产精品| 综合久久2023| 蜜桃网站成人| 丝袜亚洲精品中文字幕一区| 老牛影视av老牛影视av| 色综合色综合色综合色综合色综合 | 91一区一区三区| 国产超碰人人爽人人做人人爱| 亚洲精品suv精品一区二区| 少妇视频一区| 欧美一区二区高清在线观看| 日本美女一区二区| 91狠狠综合久久久久久| 欧美日韩黄视频| 超碰在线观看免费| 99国产高清| 99视频精品| 精品人妻无码一区| 欧美老人xxxx18| 欧美xxx黑人xxx水蜜桃| 国产精品制服诱惑| 久久精品1区| 91av手机在线| 日韩一区二区免费在线观看| 91av久久| 日本精品一区二区| 精品在线一区二区| 久久久精品91| 国产丝袜一区二区三区| 久久久久伊人| www.成年人视频| 久久久精品国产免大香伊| 一区二区三区免费在线| 欧美丰满少妇xxxxx做受| 亚洲视频分类| 中文字幕永久有效| 亚洲国产综合人成综合网站| 美女欧美视频在线观看免费 | 国产精品永久免费视频| 欧美激情四色| 波多野结衣一本| 欧美疯狂性受xxxxx喷水图片| 国产丝袜精品丝袜| 日韩久久在线| 高清成人在线观看| 久久这里只有精品9| 欧美大片免费看| 黑丝美女一区二区| 苍井空张开腿实干12次| 91国模大尺度私拍在线视频| av网站网址在线观看| 欧美另类视频在线| 国产91富婆露脸刺激对白| 国语对白做受69按摩| 久久久在线免费观看| 日韩中文在线电影|