Claude自動玩崩鐵清日常,NUS新論文完整測評AI電腦操控:GUI智能體的黎明
Claude操控電腦,究竟可以做到什么程度?
新加坡國立大學(xué)團隊在20多個場景下做了全面測試,其中最引人矚目的是:AI可以自動玩手游清日常任務(wù)了!
研究中選用了米哈游《崩壞:星穹鐵道》,可以跟它說”幫我完成今天的模擬宇宙”,然后,Claude就會立即依次打開游戲菜單、找到星穹里的”黃金花萼”、自動設(shè)置6次挑戰(zhàn)次數(shù):

甚至還可以啟動自動戰(zhàn)斗、等待戰(zhàn)斗結(jié)束后退出,這一套組合操作簡直行云流水……

而且注意哦,這不僅是傳統(tǒng)游戲外掛那樣的機械操作,Claude還能智能理解游戲規(guī)則和目標(biāo),根據(jù)界面上不同的任務(wù)進行調(diào)整。
這下好了,人類只能在一旁干瞪眼了。
除了更多測試場景外,論文還提出了一個開箱即用的自動GUI框架。

有網(wǎng)友看到視頻后評論說:以后我去上學(xué)的時候,就可以讓Claude幫我玩每日任務(wù)了。

還可以自動完成很多辦公任務(wù)
Claude Computer Use的潛能還遠(yuǎn)遠(yuǎn)沒有被人類發(fā)掘——
研究團隊還測試了很多日常辦公場景下它的性能:
1.網(wǎng)頁搜索
它可以在Amazon和Apple官方網(wǎng)站上成功完成下單購物的任務(wù),選擇顏色配置、填寫地址都輕松拿捏。


2.工作流程
模型還成功完成了在Apple Music添加歌曲、編輯Excel數(shù)據(jù)、在App Store安裝應(yīng)用等自動任務(wù)。
雖然界面設(shè)計和跳轉(zhuǎn)邏輯更加復(fù)雜,它還是能智能地理解任務(wù)的最終目標(biāo),真是一個成熟的好AI(欣慰)!



3..辦公生產(chǎn)力軟件
此外,它還可以在Outook中轉(zhuǎn)發(fā)郵件、調(diào)整Word布局、設(shè)置PowerPoint背景設(shè)置和插入三角形形狀等等,這下真的可以大大增強生產(chǎn)力了(AI無用論 -1)。




4.還可以玩其他游戲
除了《崩壞:星穹鐵道》,模型也可以自動玩《爐石傳說》,包括創(chuàng)建和重命名牌組、使用英雄技能等等。

Claude Computer Use API + 自動化GUI框架
你可能會好奇,強如Claude Computer Use,是怎么做到自動完成任務(wù)的呢?
下面我們就一起來看看背后的框架設(shè)計——

具體來說,團隊基于Claude Computer Use的API設(shè)計了一個自動化GUI框架,主要分為以下6個部分:
1.系統(tǒng)提示
Claude Computer Use的系統(tǒng)提示包括環(huán)境概述、可用函數(shù)和參數(shù)描述。用戶可以通過編寫 塊來調(diào)用這些函數(shù),例如計算機交互、Bash Shel命令和文件編輯工具。


2.狀態(tài)觀察
Claude Computer Use通過實時截圖觀察環(huán)境,不依賴元數(shù)據(jù)或HTML。每個時間步長過后,模型都會保留歷史截圖,幫助生成下一步的動作。
3.推理范式
Claude Computer Use采用了一種推理-行動范式,通過觀察環(huán)境來決定下一步的動作。這種范式可以讓模型在高度動態(tài)的GUI環(huán)境中生成更可靠的動作。
4.工具使用
Claude Computer Use提供了三種工具:計算機工具、文本編輯器工具和Bash工具,它們可以幫助模型與計算機進行交互,執(zhí)行各種任務(wù)。
5.GUI動作空間
GUI動作空間內(nèi)置了所有原始的鼠標(biāo)和鍵盤動作,如鼠標(biāo)移動、點擊、按鍵組合、拖放和截圖等。模型會根據(jù)需要自行組合。
6.歷史視覺上下文維護
模型在每個時間步長都會保留歷史截圖,以輔助動作生成過程。具體公式如下:

性能測試
為了更加廣泛地測試Claude Computer Use和GUI框架聯(lián)合后的性能效果,團隊還設(shè)計了詳盡的測試實驗,包括
1.數(shù)據(jù)收集:實驗設(shè)計包括在Windows和macOS上通過ComputerUse Out-of-the-Box平臺進行評估。評估任務(wù)覆蓋了廣泛的應(yīng)用領(lǐng)域,包括網(wǎng)頁搜索、工作流程、辦公生產(chǎn)力軟件和視頻游戲等。
2.樣本選擇:選擇了20個任務(wù),涵蓋12個軟件或網(wǎng)站,分為以下三個領(lǐng)域:網(wǎng)頁搜索、工作流程、辦公生產(chǎn)力和視頻游戲。具體的任務(wù)可以查看下表:

3.參數(shù)配置:系統(tǒng)分辦率設(shè)置為Windows的(1366,768)和macOS的(1344,756)。過程中還加入了人類評審和評估用于監(jiān)控和審查過程,確保任務(wù)的順利完成。
雖然Claude Computer Use在之前的例子中表現(xiàn)都非常厲害,但當(dāng)網(wǎng)頁或軟件的頁面過于復(fù)雜時,模型也出現(xiàn)了一些失敗案例:
1.精細(xì)網(wǎng)頁操作失敗:在Fox Sports訂閱任務(wù)中失敗,錯誤原因主要在于模型沒有正確導(dǎo)航到”Account”選項卡。

2.辦公軟件失敗:在Word中更新簡歷模板、和在PPT中插入編號符號兩個任務(wù)中失敗,錯誤原因在于模型未能準(zhǔn)確選擇和定位文本字段。


不過整體來說,Claude Computer Use已經(jīng)很棒了,而且這功能也剛剛發(fā)布沒多久,未來可期!
團隊還公開了所有測試用例的具體信息,感興趣的小伙伴可以點GitHub項目鏈接查看更多消息~
Claude老師,以后我的PPT和Steam就拜托你了(bushi)

































