Andrej Karpathy 提出判斷什么工作會被 AI 替代的新標準
Andrej Karpathy 最近提出了一個判斷哪些工作會被 AI 替代的新標準:不看復雜度,看可驗證性。

這個觀點顛覆了很多人的直覺。按照傳統想法,越復雜的工作越難被替代,越簡單的工作越容易被自動化。但 Karpathy 發現,真正的分界線在于任務是否可以快速驗證對錯。
Software 2.0 的核心邏輯
Karpathy 把這個現象放在 Software 2.0 的框架下解釋。他認為 AI 就是一種新的編程范式:
Software 1.0 時代:程序員的價值在于把規則寫清楚,告訴計算機該做什么。那時候能被自動化的,主要是那些有固定算法、按既定規則機械處理信息的任務,比如打字、記賬、人工計算。
Software 2.0 時代:我們通過指定目標(比如分類準確率、獎勵函數),讓神經網絡通過梯度下降在程序空間中搜索,找到能很好完成任務的解決方案。
關鍵變化是:Software 1.0 自動化你能定義的,Software 2.0 自動化你能驗證的。
驗證性的三個條件
對于一個任務要被 AI 很好地自動化,環境需要滿足三個條件:
- 可重置:可以重新開始嘗試
- 高效:可以進行大量嘗試
- 可獎勵:有自動化的過程來評價每次嘗試的效果
這就是為什么數學、編程這些看起來復雜的任務進展飛快。那是因為它們有明確的對錯標準,AI 可以"練習"無數遍。而創意、戰略規劃這些看似簡單的任務反而進展緩慢,因為很難快速驗證結果的好壞。
實際應用中的思考
這個框架在實際工作中已經有了體現。有開發者提到,現在更注重單測的書寫,確保 AI 給出的代碼能夠滿足審閱的單測。只要驗證通過了,具體實現流程用了什么算法什么框架什么語言都不重要。
另一個有趣的觀察是,代碼產量增加一個量級后,人腦無論如何也跟不上。但可以增加防線:通過各種自動化驗證程序來把關,這些驗證程序本身也可以用 AI 來構建。
框架的局限性
當然,這個框架也有局限性。幾個值得注意的點:
驗證性無法區分偶然復雜性和本質復雜性。編碼代理即使完成任務,也可能產生大量不必要的代碼。
臨床實驗是個反例。在人類身上進行臨床試驗耗時很長,AI 假設無法快速驗證。即使頂級科學家也無法高度準確地預測結果。
驗證成本是關鍵。幾乎所有事情最終都是可驗證的(比如是否產生積極的經濟價值,是否獲得好評),關鍵問題在于驗證任務需要多少資源。
小結
在這個邏輯框架下,未來最值錢的技能可能是如何將"業務目標"表達為"可驗證目標"。測什么如何測比如何做更重要,就像illya 關注的“超級對齊”一樣,怎么去管理和驗證比自己更強大的AI才是關鍵難題。當自己信心滿滿愿意使用AI的產出時,自己就該被替代了。。。
本文轉載自????AI工程化????,作者:ully

















