大模型去全球接單平臺賺外快，慘遭退貨！ScaleAI宣布新智能體基準：AI絕對自動化幾乎為0，大多知名基準過時原創

51CTO技術棧

發布于 2025-10-30 13:32

瀏覽

0收藏

編輯 | 云昭

如果讓大模型去外包平臺去接單，它真的可以賺到錢嗎？

現在終于有專業的評測機構站出來公布答案了。不用硬夸AI，事實是讓它接單，它會餓死。

今天一早，大洋彼岸的“AI評測”王牌企業Scale AI剛剛發布了一項非同尋常的新指標：RLI（遠程勞動力指數）。

大模型去全球接單平臺賺外快，慘遭退貨！ScaleAI宣布新智能體基準：AI絕對自動化幾乎為0，大多知名基準過時-AI.x社區

顧名思義，就是專門用于實證評測大模型或者Agent產品能夠獨立執行真實且具經濟價值的遠程工作的能力。

它回答的是一個盤桓在AI圈上空的許久沒有解決的問題——AI真的可以自動化替代人類有價值的工作嗎？

這一基準也第一時間得到了前CEO Alexandr Wang的轉發。

大模型去全球接單平臺賺外快，慘遭退貨！ScaleAI宣布新智能體基準：AI絕對自動化幾乎為0，大多知名基準過時-AI.x社區

結果顯示，不管是GPT-5，還是Claude Sonnet、Gemini，亦或是主打通用Agent的Manus，都統統被人類接單首踩在泥土里，真實水平墊底。

1.讓大模型去賺外快，打工秒變打臉

如果讓GPT去知名接單平臺賺任務，是否真的可以賺到錢？

這個問題，最近被 Scale AI 認真地做了一遍實驗——他們推出了一個名為 “Remote Labor Index（遠程勞動指數，RLI）” 的新基準。

讓AI去干真實的自由職業工作，然后看看能不能交差。

Scale把AI模型當作真正的“打工人”，從Upwork平臺上挑了240個真實項目，涵蓋寫報告、修圖、建3D模型、做音效、寫代碼……然后給AI發任務，看它能否完成、能賺多少錢、能替代多少人工成本。

大模型去全球接單平臺賺外快，慘遭退貨！ScaleAI宣布新智能體基準：AI絕對自動化幾乎為0，大多知名基準過時-AI.x社區圖片

這些項目都是ScaleAI精挑細選出來，真能交易的項目，平均每單高達630美刀以上。

總經濟價值： 143,991 美元
項目難度和價值： RLI 項目反映了真實自由職業工作的復雜性，遠遠超過了以往的基準。
人類平均完成時間： 28.9 小時（中位數：11.5 小時）
項目平均價值： 632.60 美元（中位數：200 美元）

大模型去全球接單平臺賺外快，慘遭退貨！ScaleAI宣布新智能體基準：AI絕對自動化幾乎為0，大多知名基準過時-AI.x社區圖片

結果出來之后，全場沉默了。在RLI榜單中，所有AI模型的表現幾乎都跌到了谷底。

2.98% AI提交的項目被“老板退貨”

結果是，這240個項目，AI提交的作品，即便成績最好的選手，也僅被老板認可了6個，234個項目都被退貨了。

而更沒想到的是，這位最優生，不是GPT-5，也不是Sonnet，而是今年爆火的黑馬 Manus，自動化率為 2.5%。

大模型去全球接單平臺賺外快，慘遭退貨！ScaleAI宣布新智能體基準：AI絕對自動化幾乎為0，大多知名基準過時-AI.x社區圖片

其他模型表現更慘：

Claude Sonnet 4.5、GPT-5、Gemini 2.5 Pro、ChatGPT Agent……全部“翻車”，沒一個能穩定交付客戶滿意的作品。

而且，據ScaleAI放出的官方博文介紹，AI雖然很高產，但交付的質量實在是沒眼看，可以說全軍覆沒。平均每個項目的人類用時是28.9小時，AI花同樣的“算力時間”，多數交付品卻被判為“不合格”。

人工評審總結了失敗原因：

45.6%：作品質量太差，像小學生練手。
35.7%：交付不完整，視頻截斷、文件丟失。
17.6%：格式錯誤、文件損壞。
14.8%：視覺或邏輯不一致，比如3D建筑的不同視角完全對不上。

唯一的亮點，是在部分音頻處理和圖片生成任務中，AI能完成得像模像樣。比如做廣告圖、分離人聲這類“創意但封閉”的任務。

在同步發布的官方視頻中，美人工智能安全中心執行主任 Dan Hendrycks 和 Scale AI 研究主管Bing Liu指出：

AI完成得較好的少數任務多來自創意領域，如音頻與圖像生成，比如為游戲制作音效、剪輯配音、生成Logo等。這些領域的AI已經能與人類專業人士旗鼓相當。

但凡涉及跨文件邏輯、復雜工具鏈、長期一致性……AI都露餡了。

但更復雜的任務——那些需要多步驟執行、嚴格遵守說明、持續數小時甚至更久的項目——仍會讓最強的模型出錯。

所以，Scale團隊得出了很殘酷的結論：

“AI絕對自動化幾乎為零。”AI還遠遠不能替代專業遠程勞動。

3.這項基準報告，意義有何不同

小編看來，這項新發布的基準，意義非同尋常。

因為，要知道現在AI圈為什么非常卷？其中很大一部分原因，就在于大家一直在已有的基準評測上卷來卷去。從一開始的文科能力再到理科題目，再到今年的各種Coding、Agentic能力。

但問題是，卷來卷去，我們在實測中發現，結果想要勉強滿意，大概率都是要多次抽卡的。

所以，既然已有的測評數據集已經不能用來評估人類真正所需的模型能力，我們就必須設計一種新的評估或測評基準，一種真正可以評估如何評價智能體是否真的在做事的方法。

這也是為什么Scale AI要構建一個衡量完整自動化產出的基準，而不是只測單項技能的原因。

如果只測寫作或數學等單項技能，就無法評估AI是否能在長時間跨度內持續完成任務。模型可能在某個環節出錯，導致整體無效。這些問題在孤立技能測試中很難被捕捉。

我們希望關注那些人類需要花數小時或數天完成的任務，這樣的評估更具生態真實性，更能反映現實中的工作狀態。

畢竟，真實工作并非一連串孤立任務，它涉及上下文整合、信息綜合和跨任務協作。只有把這些因素都處理好，才能真正勝任工作。

因此，我們關注的不是AI是否能解封閉題，而是能否完成一個完整的工作流。

4.許多知名測評基準已過時

那么，究竟這樣一份“讓AI去自由職業接單平臺的測評”，跟其他知名基準，比如GDP-eval、SWE-bench 有何不同？

在采訪中，Hendrycks 給出了答案：原來那些基準要么過于封閉，要么測得不準，要么已經過時。

以“humanity's last exam”為例，那類基準是封閉題、非行動型的；而RLI是開放的、具備行為導向的。
GDP-val雖然試圖覆蓋經濟任務，但它聲稱AI已接近人類水平，這顯然不現實。如果真那樣，世界早已截然不同。
SWE-bench主要測AI在軟件工程領域（如Django類問題）的能力，但業內普遍認為，它對實際開發影響的預測力越來越低，比如對Cursor等工具的應用參考價值有限。
這些基準要么過于封閉，要么測得不準，要么已“封頂”失去預測效度。而RLI旨在更開放、更貼近經濟實況，覆蓋更廣泛的真實任務與項目。

這里，他們還提到了用合成任務來做測試集的不合理之處。“合成任務往往缺乏真實性！”

Liu Bing：為什么要在真實付費任務上測試，而不是合成任務？
Hendrycks ：因為真實工作中充滿各種邊緣情況，而沒有什么比現實更復雜。若想了解AI在現實世界的影響，就必須使用包含這些復雜情境的數據集，而不是人造的“假問題”。合成任務往往缺乏真實性。比如，讓人編個“刁鉆的機器學習題目”，那只是測試數學能力，而非真實工程工作。因此，RLI要立足現實任務，涵蓋足夠多的復雜案例，才能檢驗模型在真實挑戰中的適應力。

5.智能不等于生產力

那么，這份“AI勞動績效表”，究竟該如何看待呢？

首先，需要為所有打工人慶祝一番：AI距離替代人類干活，還很遠。

Hendrycks 在采訪中指出，目前模型在RLI上準確率不足10%，這意味著，在我們測試的所有自由職業任務中，即便是最好的AI模型，也只有不到十分之一的任務能達到客戶可接受的專業水準。

這提醒我們，工作不僅僅是回答問題或生成內容，還包括理解上下文、運用工具，并完整地完成任務——而這是當前AI明顯欠缺的。

其次，這可以說是全球首次用來評估AI“干活能力”的基準。

它和以前那些論文題型的AI測試（比如MMLU、GSM8K）不同，后者主要是測智商，而RLI關注的是真實世界的交付：

能不能打開文件？能不能保存格式？
能不能從A到Z獨立完成一份交差作品？

這才是AI走出實驗室，進入社會的真正門檻。

只不過，如今的結果說明還可以說只是萬里長征第一步，人類還需要為AI收拾爛攤子。AI能生成，但它還不會交差；它可以寫文案、畫圖、寫代碼，但在整合和收尾環節一塌糊涂。

正如Hendrycks在采訪中最后所說的，最關鍵的一點是，AI的進步必須以真實經濟價值為衡量標準。

RLI告訴我們，“智能”并不等于“勞動”。真正的自動化，需要AI全面掌握語境、具備可靠性與判斷力。

6.暴風前的平靜：別大意，AI自動打工就在眼前

但別急著對AI失望。Scale AI 團隊發現，雖然AI“干不好活”，但進步是可測的。

他們用Elo評分體系追蹤各模型的相對表現——新一代模型比舊版有穩步提升，哪怕整體分數還低。

大模型去全球接單平臺賺外快，慘遭退貨！ScaleAI宣布新智能體基準：AI絕對自動化幾乎為0，大多知名基準過時-AI.x社區圖片

也就是說，AI距離“自動打工”雖然還遠，但它的學習曲線是清晰的。

或許當我們下次再測，Automation Rate從2.5%升到10%、30%、50%——有了新榜單可以刷，早晚，“AI勞動力市場”就真的要誕生了。

別忘了，就在昨天，剛完成重組的OpenAI就馬不停蹄的宣布了它們的3年目標：2026年9月之前，讓一個自動化的AI研究實習生在數十萬張GPU上運行，并在2028年3月之前實現真正的自動化AI研究員。

要實現這個任務，安全策略、價值觀對齊、算力、資金的問題顯然要交給OpenAI這個龐然大物去處理，但具體該如何評價“AI自動化”能力，恐怕就要從今天Scale AI提出的RLI開始了。

Ps：小編突然想到今年6月，強化學習之父Sutton在智源大會演講中提到的AI發展的新階段。

“高質量的人類數據資源已經幾乎被用到極限……
如果我們希望 AI 擁有真正的創造力和適應能力，它必須進入一個全新的階段，也就是‘經驗時代’。在這個階段，AI 不再依賴固定的數據集，而是通過自身與外部世界的交互，從中獲取經驗并不斷進化。”

那看來，從這個測評基準開始，AI真得要進入“接管真實人類派單”的經驗時代了！

論文地址也為大家扒下來了，enjoy！

論文鏈接：

??https://scale.com/research/rli????https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Remote_Labor_Index%20(4).pdf??

本文轉載自??51CTO技術棧??，作者：云昭

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

大模型

ScaleAI

贊

回復

舉報

社區頭條

回復

51CTO

51CTO博客

51CTO學堂