用AI寫代碼效率反降19%!246項(xiàng)任務(wù)實(shí)測(cè),16位資深程序員參與
用AI,有經(jīng)驗(yàn)的開發(fā)者反倒被拖慢了?
在一項(xiàng)基于真實(shí)開源項(xiàng)目的實(shí)驗(yàn)中,研究者發(fā)現(xiàn)使用AI工具不僅沒有提升開發(fā)效率,反而讓任務(wù)時(shí)間增加19%。

這簡(jiǎn)直與人們預(yù)測(cè)的結(jié)果完全相反。
網(wǎng)友也表示,沒有AI輔助寫代碼,痛苦面具真的要出來了。

下面我們來看看,這一與多數(shù)人直覺相悖的結(jié)果是如何得出的。
16位經(jīng)驗(yàn)開發(fā)者實(shí)測(cè)AI使用效率
為了直接評(píng)估AI工具對(duì)開發(fā)者生產(chǎn)效率的影響,研究者讓16位經(jīng)驗(yàn)豐富的開發(fā)人員完成246項(xiàng)任務(wù),這些任務(wù)都是在知名開源代碼倉(cāng)庫(kù)中(平均23000星,1100000行代碼)。
每項(xiàng)任務(wù)被隨機(jī)分配是否允許使用AI工具。若需要使用AI工具,主要是使用Cursor Pro搭配Claude 3.5/3.7 Sonnet。
隨后,研究團(tuán)隊(duì)記錄開發(fā)者在不同條件下完成任務(wù)所花費(fèi)的時(shí)間,并收集他們?cè)诠ぷ鲿r(shí)的屏幕錄像。

在這個(gè)實(shí)驗(yàn)中,每位開發(fā)者都會(huì)提供一份自己代碼倉(cāng)庫(kù)中的真實(shí)任務(wù)列表,作為本次研究的工作內(nèi)容。
這些任務(wù)通常是錯(cuò)誤報(bào)告、功能請(qǐng)求或用于協(xié)調(diào)開發(fā)的工作項(xiàng),內(nèi)容從簡(jiǎn)短的問題描述到詳細(xì)的分析不等,所需時(shí)間也從幾分鐘到數(shù)小時(shí)不等。

收集完任務(wù)列表后,開發(fā)者會(huì)預(yù)測(cè)在有AI輔助和沒有AI輔助的情況下,完成每個(gè)任務(wù)所需的時(shí)間。
隨后,這些任務(wù)通過模擬拋硬幣的方式,隨機(jī)分配到允許或不允許使用AI的兩種條件中。
開發(fā)者可按照自己的喜好順序處理分配到的任務(wù),允許靈活安排工作,甚至有時(shí)會(huì)同時(shí)處理多個(gè)任務(wù)。
當(dāng)他們認(rèn)為某個(gè)任務(wù)已完成滿意后,會(huì)向相應(yīng)代碼倉(cāng)庫(kù)提交一個(gè)請(qǐng)求,該請(qǐng)求通常會(huì)由其他開發(fā)者進(jìn)行審查。
使用AI工具竟然比不使用慢19%
開發(fā)者在允許使用AI的條件下完成了136個(gè)任務(wù),在不允許使用AI的條件下完成了110個(gè)任務(wù)。

有趣的是,開發(fā)人員預(yù)測(cè)自己的效率會(huì)提升24%,但結(jié)果卻正好相反。
研究發(fā)現(xiàn),當(dāng)開發(fā)者使用AI工具時(shí),完成任務(wù)的平均時(shí)間增加了19%。

不僅如此,幾乎所有完成時(shí)間的分位數(shù)中,允許使用AI的任務(wù)耗時(shí)都更長(zhǎng)。

下圖顯示了在有效屏幕錄像中,開發(fā)人員為每種類型的問題所花費(fèi)的時(shí)間比。

可以看出,當(dāng)允許使用AI時(shí),開發(fā)人員會(huì)花費(fèi)較少的時(shí)間主動(dòng)編碼和閱讀/搜索信息。相反,他們花時(shí)間審查AI輸出,提示AI系統(tǒng)并等待AI生成。
鑒于這一令人震驚的結(jié)果,研究人員進(jìn)一步探究了可能導(dǎo)致開發(fā)者在允許使用AI時(shí)花費(fèi)更多時(shí)間的20個(gè)相關(guān)因素,他們將這些因素分為四類:
直接生產(chǎn)力損失:指使用AI工具過程中,因其本身機(jī)制導(dǎo)致開發(fā)效率下降。
實(shí)驗(yàn)偏差因素:指實(shí)驗(yàn)設(shè)計(jì)或執(zhí)行中的混雜變量,可能引入偏差或影響結(jié)果的外部有效性。
提升開發(fā)者表現(xiàn)的因素:指任務(wù)、代碼倉(cāng)庫(kù)或?qū)嶒?yàn)環(huán)境中的特性,使開發(fā)者相較AI更具優(yōu)勢(shì)。
限制AI表現(xiàn)的因素:指任務(wù)、代碼倉(cāng)庫(kù)或AI工具/環(huán)境中的特性,削弱了AI相對(duì)于人類開發(fā)者的有效性。

他們?cè)趯?duì)20個(gè)因素進(jìn)行分析后,發(fā)現(xiàn)其中5個(gè)因素有定性和定量的證據(jù)表明它們確實(shí)導(dǎo)致了效率減慢,9個(gè)因素的影響證據(jù)不明確或存在混合情況,另有6個(gè)因素則有證據(jù)表明它們并未造成效率下降。
One More Thing
與此同時(shí),《華爾街日?qǐng)?bào)》也報(bào)道,就算用AI省下時(shí)間,換來的卻是更多工作。

這對(duì)牛馬來說簡(jiǎn)直是天大的噩耗,笑不出來了屬實(shí)是。
隨著越來越多職場(chǎng)人士開始使用AI助理完成日常任務(wù),平均每天可節(jié)省大約一小時(shí)工作時(shí)間(據(jù)商業(yè)軟件制造商SAP調(diào)查)。
但企業(yè)并沒有給員工更輕松的工作安排,相反,管理層往往期待他們用節(jié)省的時(shí)間創(chuàng)造更多產(chǎn)出。
在亞馬遜,CEO Andy Jassy公開敦促員工
想辦法如何利用人工智能更快速、更廣泛地為客戶進(jìn)行創(chuàng)新,并以更精簡(jiǎn)的團(tuán)隊(duì)完成更多工作。






















