大模型去全球接單平臺賺外快,慘遭退貨!ScaleAI宣布新智能體基準:AI絕對自動化幾乎為0,大多知名基準過時 原創
編輯 | 云昭
如果讓大模型去外包平臺去接單,它真的可以賺到錢嗎?
現在終于有專業的評測機構站出來公布答案了。不用硬夸AI,事實是讓它接單,它會餓死。
今天一早,大洋彼岸的“AI評測”王牌企業Scale AI剛剛發布了一項非同尋常的新指標:RLI(遠程勞動力指數)。

顧名思義,就是專門用于實證評測大模型或者Agent產品能夠獨立執行真實且具經濟價值的遠程工作的能力。
它回答的是一個盤桓在AI圈上空的許久沒有解決的問題——AI真的可以自動化替代人類有價值的工作嗎?
這一基準也第一時間得到了前CEO Alexandr Wang的轉發。

結果顯示,不管是GPT-5,還是Claude Sonnet、Gemini,亦或是主打通用Agent的Manus,都統統被人類接單首踩在泥土里,真實水平墊底。
1.讓大模型去賺外快,打工秒變打臉
如果讓GPT去知名接單平臺賺任務,是否真的可以賺到錢?
這個問題,最近被 Scale AI 認真地做了一遍實驗——他們推出了一個名為 “Remote Labor Index(遠程勞動指數,RLI)” 的新基準。
讓AI去干真實的自由職業工作,然后看看能不能交差。
Scale把AI模型當作真正的“打工人”,從Upwork平臺上挑了240個真實項目,涵蓋寫報告、修圖、建3D模型、做音效、寫代碼……然后給AI發任務,看它能否完成、能賺多少錢、能替代多少人工成本。
圖片
這些項目都是ScaleAI精挑細選出來,真能交易的項目,平均每單高達630美刀以上。
總經濟價值: 143,991 美元
項目難度和價值: RLI 項目反映了真實自由職業工作的復雜性,遠遠超過了以往的基準。
人類平均完成時間: 28.9 小時(中位數:11.5 小時)
項目平均價值: 632.60 美元(中位數:200 美元)
圖片
結果出來之后,全場沉默了。在RLI榜單中,所有AI模型的表現幾乎都跌到了谷底。
2.98% AI提交的項目被“老板退貨”
結果是,這240個項目,AI提交的作品,即便成績最好的選手,也僅被老板認可了6個,234個項目都被退貨了。
而更沒想到的是,這位最優生,不是GPT-5,也不是Sonnet,而是今年爆火的黑馬 Manus,自動化率為 2.5%。
圖片
其他模型表現更慘:
Claude Sonnet 4.5、GPT-5、Gemini 2.5 Pro、ChatGPT Agent……全部“翻車”,沒一個能穩定交付客戶滿意的作品。
而且,據ScaleAI放出的官方博文介紹,AI雖然很高產,但交付的質量實在是沒眼看,可以說全軍覆沒。平均每個項目的人類用時是28.9小時,AI花同樣的“算力時間”,多數交付品卻被判為“不合格”。
人工評審總結了失敗原因:
- 45.6%:作品質量太差,像小學生練手。
- 35.7%:交付不完整,視頻截斷、文件丟失。
- 17.6%:格式錯誤、文件損壞。
- 14.8%:視覺或邏輯不一致,比如3D建筑的不同視角完全對不上。
唯一的亮點,是在部分音頻處理和圖片生成任務中,AI能完成得像模像樣。比如做廣告圖、分離人聲這類“創意但封閉”的任務。
在同步發布的官方視頻中,美人工智能安全中心執行主任 Dan Hendrycks 和 Scale AI 研究主管Bing Liu指出:
AI完成得較好的少數任務多來自創意領域,如音頻與圖像生成,比如為游戲制作音效、剪輯配音、生成Logo等。這些領域的AI已經能與人類專業人士旗鼓相當。
但凡涉及跨文件邏輯、復雜工具鏈、長期一致性……AI都露餡了。
但更復雜的任務——那些需要多步驟執行、嚴格遵守說明、持續數小時甚至更久的項目——仍會讓最強的模型出錯。
所以,Scale團隊得出了很殘酷的結論:
“AI絕對自動化幾乎為零。”AI還遠遠不能替代專業遠程勞動。
3.這項基準報告,意義有何不同
小編看來,這項新發布的基準,意義非同尋常。
因為,要知道現在AI圈為什么非常卷?其中很大一部分原因,就在于大家一直在已有的基準評測上卷來卷去。從一開始的文科能力再到理科題目,再到今年的各種Coding、Agentic能力。
但問題是,卷來卷去,我們在實測中發現,結果想要勉強滿意,大概率都是要多次抽卡的。
所以,既然已有的測評數據集已經不能用來評估人類真正所需的模型能力,我們就必須設計一種新的評估或測評基準,一種真正可以評估如何評價智能體是否真的在做事的方法。
這也是為什么Scale AI要構建一個衡量完整自動化產出的基準,而不是只測單項技能的原因。
如果只測寫作或數學等單項技能,就無法評估AI是否能在長時間跨度內持續完成任務。模型可能在某個環節出錯,導致整體無效。這些問題在孤立技能測試中很難被捕捉。
我們希望關注那些人類需要花數小時或數天完成的任務,這樣的評估更具生態真實性,更能反映現實中的工作狀態。
畢竟,真實工作并非一連串孤立任務,它涉及上下文整合、信息綜合和跨任務協作。只有把這些因素都處理好,才能真正勝任工作。
因此,我們關注的不是AI是否能解封閉題,而是能否完成一個完整的工作流。
4.許多知名測評基準已過時
那么,究竟這樣一份“讓AI去自由職業接單平臺的測評”,跟其他知名基準,比如GDP-eval、SWE-bench 有何不同?
在采訪中,Hendrycks 給出了答案:原來那些基準要么過于封閉,要么測得不準,要么已經過時。
以“humanity's last exam”為例,那類基準是封閉題、非行動型的;而RLI是開放的、具備行為導向的。
GDP-val雖然試圖覆蓋經濟任務,但它聲稱AI已接近人類水平,這顯然不現實。如果真那樣,世界早已截然不同。
SWE-bench主要測AI在軟件工程領域(如Django類問題)的能力,但業內普遍認為,它對實際開發影響的預測力越來越低,比如對Cursor等工具的應用參考價值有限。
這些基準要么過于封閉,要么測得不準,要么已“封頂”失去預測效度。而RLI旨在更開放、更貼近經濟實況,覆蓋更廣泛的真實任務與項目。
這里,他們還提到了用合成任務來做測試集的不合理之處。“合成任務往往缺乏真實性!”
Liu Bing:為什么要在真實付費任務上測試,而不是合成任務?
Hendrycks :因為真實工作中充滿各種邊緣情況,而沒有什么比現實更復雜。若想了解AI在現實世界的影響,就必須使用包含這些復雜情境的數據集,而不是人造的“假問題”。合成任務往往缺乏真實性。比如,讓人編個“刁鉆的機器學習題目”,那只是測試數學能力,而非真實工程工作。因此,RLI要立足現實任務,涵蓋足夠多的復雜案例,才能檢驗模型在真實挑戰中的適應力。
5.智能不等于生產力
那么,這份“AI勞動績效表”,究竟該如何看待呢?
首先,需要為所有打工人慶祝一番:AI距離替代人類干活,還很遠。
Hendrycks 在采訪中指出,目前模型在RLI上準確率不足10%,這意味著,在我們測試的所有自由職業任務中,即便是最好的AI模型,也只有不到十分之一的任務能達到客戶可接受的專業水準。
這提醒我們,工作不僅僅是回答問題或生成內容,還包括理解上下文、運用工具,并完整地完成任務——而這是當前AI明顯欠缺的。
其次,這可以說是全球首次用來評估AI“干活能力”的基準。
它和以前那些論文題型的AI測試(比如MMLU、GSM8K)不同,后者主要是測智商,而RLI關注的是真實世界的交付:
能不能打開文件?能不能保存格式?
能不能從A到Z獨立完成一份交差作品?
這才是AI走出實驗室,進入社會的真正門檻。
只不過,如今的結果說明還可以說只是萬里長征第一步,人類還需要為AI收拾爛攤子。AI能生成,但它還不會交差;它可以寫文案、畫圖、寫代碼,但在整合和收尾環節一塌糊涂。
正如Hendrycks在采訪中最后所說的 ,最關鍵的一點是,AI的進步必須以真實經濟價值為衡量標準。
RLI告訴我們,“智能”并不等于“勞動”。真正的自動化,需要AI全面掌握語境、具備可靠性與判斷力。
6.暴風前的平靜:別大意,AI自動打工就在眼前
但別急著對AI失望。Scale AI 團隊發現,雖然AI“干不好活”,但進步是可測的。
他們用Elo評分體系追蹤各模型的相對表現——新一代模型比舊版有穩步提升,哪怕整體分數還低。
圖片
也就是說,AI距離“自動打工”雖然還遠,但它的學習曲線是清晰的。
或許當我們下次再測,Automation Rate從2.5%升到10%、30%、50%——有了新榜單可以刷,早晚,“AI勞動力市場”就真的要誕生了。
別忘了,就在昨天,剛完成重組的OpenAI就馬不停蹄的宣布了它們的3年目標:2026年9月之前,讓一個自動化的AI研究實習生在數十萬張GPU上運行,并在2028年3月之前實現真正的自動化AI研究員。
要實現這個任務,安全策略、價值觀對齊、算力、資金的問題顯然要交給OpenAI這個龐然大物去處理,但具體該如何評價“AI自動化”能力,恐怕就要從今天Scale AI提出的RLI開始了。
Ps:小編突然想到今年6月,強化學習之父Sutton在智源大會演講中提到的AI發展的新階段。
“高質量的人類數據資源已經幾乎被用到極限……
如果我們希望 AI 擁有真正的創造力和適應能力,它必須進入一個全新的階段,也就是‘經驗時代’。在這個階段,AI 不再依賴固定的數據集,而是通過自身與外部世界的交互,從中獲取經驗并不斷進化。”
那看來,從這個測評基準開始,AI真得要進入“接管真實人類派單”的經驗時代了!
論文地址也為大家扒下來了,enjoy!
論文鏈接:
??https://scale.com/research/rli????https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Remote_Labor_Index%20(4).pdf??
本文轉載自??51CTO技術棧??,作者:云昭

















