精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI首勝人類博士,頂會論文秒變代碼!港大90后開源刷爆8k星

人工智能 新聞
香港大學黃超團隊開源的DeepCode在「論文復現代碼」方面,首次在PaperBench測試中超過來自劍橋、伯克利等8所頂尖高校的機器學習博士,并領先Claude Code、Cursor等先進的商用代碼智能體。

在AI領域,學術論文往往承載了算法、模型架構等方面的最前沿突破。

但想要真正理解論文的核心知識,并成功復現其中的算法和實驗結果,卻經常面臨巨大挑戰。

問題的主要癥結,在于「關鍵實現細節」上的缺失!

現實中論文作者通常將復雜的算法邏輯高度抽象化為幾行數學公式,省略了真正影響成敗的核心細節,比如:

超參數的具體取值范圍、訓練過程中的技巧性調整、數據預處理的細節步驟、網絡初始化策略等。

然而正是關鍵實現要點上的缺失,導致了理論與實踐之間的巨大鴻溝。

就連資深研究員也經常對此束手無策。

怎么破?

近日,香港大學黃超教授團隊開源的DeepCode,為這一難題的解決提供了超強的AI利器。

它不僅能夠分析論文內容,理解算法邏輯,還可以自動生成可運行的代碼。

DeepCode演示

0:11DeepCode視覺交互界面

在基準測試中,DeepCode在復現成功率和代碼質量方面表現出眾,在多項指標上超過了頂級大學的機器學習博士。

DeepCode自今年7月發布首個版本——DeepCode v1.0.0以來便備受關注,并登上 GitHub Trending榜首,斬獲近8千星標(截至11月1日數據)。

開源鏈接: https://github.com/HKUDS/DeepCode

四大基準測試全面領先

研究人員將DeepCode放在以下四大基準測試中進行比較:

  • 人類專家;
  • 最先進的商業代碼智能體;
  • 科學代碼智能體;
  • 基于大模型的智能體。

結果顯示,DeepCode均拿到了最高分。

首超人類專家:75.9% vs 72.4%

在OpenAI發布的PaperBench基準測試中,DeepCode的總體準確率為75.9%,超過參與評測的人類專家組72.4%的成績。

PaperBench的基準測試規格如下:

  • 數據集來源:OpenAI官方發布的標準化評測基準;
  • 任務規模:20篇ICML2024會議論文的完整復現;
  • 評估維度:8316個獨立可評分組件;
  • 評分機制:SimpleJudge分層加權評估系統;
  • 任務復雜度:要求從論文文本到可執行代碼的端到端實現。

為確保實驗的科學嚴謹性,研究團隊還建立了高質量的人類專家基線。

首先是嚴格的人類專家資質標準。

這些專家均來自8所頂尖研究型大學的機器學習博士(在讀/已畢業博士學位)。

8所大學分別為UC Berkeley、Cambridge、CMU、Columbia、Cornell、Purdue、TU Wien、UMass Amherst。

此外,研究團隊還采用了嚴格的人類專家篩選流程:

首先,進行簡歷預篩選和學術背景驗證;

接著,實施機器學習理論知識的標準化測試;

然后,評估Git版本控制和軟件工程實踐能力;

最后,驗證候選人在論文復現任務中的完整技能鏈。

以上篩選流程確保所有參與者都具備從理論理解到代碼實現的全流程能力。

實驗環境配置如下:

  • 計算資源:NVIDIA A10 GPU標準配置,部分使用A100;
  • 開發時間:4周彈性開發周期;
  • 工具權限:無限制使用ChatGPT、GitHub Copilot等商業AI助手;
  • 嘗試機制:每論文3次獨立復現機會,采用best@3評分策略。

以上實驗結果充分證明:

面對需要深度理解和長期開發的復雜任務,即使人類專家可以充分利用各種AI輔助工具,DeepCode仍能在代碼質量和準確性方面達到更高的水平。

這表明DeepCode不僅達到而且超越了專家級的代碼復現能力,也意味著自主科學軟件工程領域的一個重要里程碑。

優于現有AI Coding:84.8% vs 58.7%

在同一基準上,研究人員從20篇論文中隨機抽取5篇,將DeepCode與當前主流商用代碼智能體進行了系統性的性能對比。

在評測中DeepCode展現出明顯領先優勢:

DeepCode得分84.8% ,領先Claude Code(58.7%)約26.1個百分點。

為確保測試的公平性和權威性,所有參與評測的商業代碼智能體均配備了當前最先進的基礎模型:Claude 4.5 Sonnet-think和GPT 5 codex-high。

結果提示性能差距主要來自多智能體架構設計,而非單純的基礎模型差異。

此外,在科學代碼智能體、基于大模型的智能體兩項評測中,DeepCode同樣保持領先:

與目前最先進的科學代碼復現框架PaperCoder(51.1%)相比,DeepCode的復現率達到了73.5% ,提升了22.4個百分點。

這一顯著的提升驗證了研究團隊結合規劃、分層任務分解、代碼生成和迭代調試的多模塊架構優于更簡單的基于流水線的方法。

與性能最佳的大模型智能體(43.3%)相比,DeepCode(73.5%)提升了30.2個百分點。

這表明,對于復雜的代碼復現任務而言,復雜的代理支架(而不是延長推理時間或更大的模型)至關重要。

DeepCode三大核心能力

Paper2Code(論文→代碼)

  • 輸入:學術論文PDF文檔;
  • 輸出:生產級代碼實現+完整測試套件+詳細技術文檔。

DeepCode的核心優勢在于自動解析復雜數學公式、理解算法邏輯、生成可運行的高質量代碼,可以幫助科研人員快速復現SOTA算法、驗證理論創新、加速研究進展等。

Paper2Code

Text2Web:(想法→網頁)

  • 輸入:自然語言描述的界面需求和功能期望;
  • 輸出:響應式前端頁面+現代化UI設計+完整交互邏輯。

DeepCode可以智能理解用戶意圖、自動適配移動端、生成符合設計規范的界面,適用于快速原型驗證、MVP產品開發、創業想法落地等場景。

前端實現

Text2Backend:(需求→服務)

  • 輸入:后端功能需求和業務邏輯描述;
  • 輸出:高性能API接口 + 優化數據庫設計 + 可擴展系統架構。

DeepCode可以自動選擇最佳技術棧、考慮性能和安全性、支持云原生部署,適用于微服務快速開發、遺留系統重構、企業數字化轉型等場景。

DeepCode的核心技術框架

DeepCode采用系統化的三階段框架,將復雜的代碼生成任務分解為架構藍圖構建、代碼實現和自動驗證三個步驟,通過多智能體協作實現從文檔到可執行代碼的自動轉換。

階段一:架構藍圖構建

該階段將冗長的文檔規范轉化為結構化的架構藍圖,通過層次化內容分割、多智能體深度分析、架構藍圖融合三個關鍵步驟解決長文檔理解的挑戰。

在多智能體深度分析環節,采用概念智能體、算法智能體兩個專業智能體并行深度分析文檔的不同維度,確保了既有全局視野又有具體實現細節。

代碼規劃智能體融合以上兩個分析智能體的深度輸出,協調高層架構與底層規范,解決潛在的不一致性。

通過智能化的融合過程,最終生成完整的架構藍圖,為后續代碼生成提供了詳細的指導。

階段二:自動化代碼構建

該階段基于構建完成的架構藍圖進行代碼倉庫的系統化構建,通過雙重機制設計解決大規模代碼庫中的跨文件一致性維護和領域知識缺失的核心挑戰。

階段三:動態驗證與優化

該階段構建了一個多層次的質量保障體系,通過靜態分析和動態執行的雙重驗證機制,實現代碼從結構完整性到功能正確性的全面保障,形成了自我完善的閉環反饋系統。

AI Coding的挑戰與思考

目前AI編程工具在代碼補全和簡單任務上表現良好,但在需要深層理解的復雜任務中仍有不足。

科學論文復現就是一個典型例子——它需要AI理解數學原理,將抽象概念轉化為代碼實現,并處理各種技術細節。

DeepCode在這個領域的進展表明,通過專門的架構設計,AI可以在特定領域取得較好效果,但通用的深度理解能力仍然存在局限。

如何讓AI更好地理解復雜的業務邏輯和技術需求,仍是一個開放性問題。

· 從輔助工具到開發伙伴

AI編程工具正在從簡單的代碼補全向更全面的開發支持演進。

DeepCode展示的從需求分析到代碼生成再到質量驗證的完整流程,代表了這種發展趨勢。

然而,這也帶來了新的問題:

如何在AI系統提供更多自主能力的同時,保持開發者對項目的有效控制? 

如何確保生成的代碼符合團隊的編碼規范和架構要求?

這些問題需要在技術進步和工程實踐中逐步解決。

· Vibe Coding的實用性考量

Vibe Coding的興起降低了編程門檻,讓更多人能夠參與軟件開發。

但這種模式也帶來了一系列挑戰:

  • 生成代碼的質量和一致性如何保證?
  • 當開發者減少對底層細節的關注時,如何維護代碼的長期可維護性?
  • 如何在提高開發效率的同時確保代碼的安全性和穩定性?

DeepCode的驗證機制提供了一種思路,但更完善的工程實踐和質量標準還需要行業的進一步探索和完善。

作者介紹

李宗蔚

李宗蔚

李宗蔚(1999年生),現為香港大學博士生,師從黃超老師,專注于大模型智能體前沿技術研究。其學術成果入選CIKM 2024最具影響力論文榜單。作為開源項目DeepCode的核心貢獻者,該項目在GitHub上獲得約8,000星標。

李中行

李中行

李中行(1998年生),香港大學訪問博士,研究方向為大模型智能體與智慧城市。作為智慧城市大模型UrbanGPT第一作者,其研究成果入選KDD 2024及ICDE 2022最具影響力論文榜單。同時為開源項目DeepCode核心貢獻者,獲得約8,000 GitHub星標。

郭子睿

郭子睿

郭子睿(2000年生),香港大學博士學生,專注于RAG與智能體技術研究。作為LightRAG和RAG-Anything開源項目的第一作者,其項目在GitHub上累計獲得超過32,000星標,已成為圖RAG系統領域的主流技術框架之一。

黃超

黃超

黃超,香港大學博士生導師,專注于大語言模型、智能體與圖機器學習研究,Google Scholar引用超過13,000次。其團隊開發的LightRAG、RAG-Anything、DeepCode、AutoAgent、AI-Researcher、AI-Trader、MiniRAG、VideoRAG等開源項目累計獲得超過70,000 GitHub星標,50次登上GitHub Trending(趨勢榜)。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-03-17 08:40:00

開源智能體框架

2025-04-04 00:00:00

AI模型數據

2025-05-30 09:15:00

2025-06-04 09:03:00

2025-09-01 17:09:21

AI論文模型

2025-08-18 08:51:00

2020-06-10 10:32:10

人工智能技術編輯

2023-10-27 20:52:13

OpenAIJina AI開源

2025-11-03 09:06:00

2025-11-17 08:32:57

2023-07-19 17:27:38

研究方案

2023-11-16 12:36:00

AI數據

2022-01-04 11:00:15

AI 數據人工智能

2016-12-02 20:10:22

人工智能唇語序列

2020-04-20 10:08:22

AI 代碼開源

2023-06-01 16:56:50

AI女友

2019-07-03 09:01:29

博士生頂會計算機

2025-05-29 05:00:10

開源AI工具
點贊
收藏

51CTO技術棧公眾號

国产iv一区二区三区| 亚洲精品一级二级三级| 一区二区三区四区不卡在线| caoporen国产精品| 黄色在线免费观看| 天天射成人网| 亚洲精品不卡在线| a在线观看免费视频| 蜜臀av在线播放| 久久免费视频色| 91亚洲精品在线| 欧美在线观看不卡| 91国语精品自产拍| 亚洲欧美日韩直播| 久久精品无码一区二区三区毛片| 无码小电影在线观看网站免费| 中文字幕精品—区二区四季| eeuss一区二区三区| 中文字幕久久久久| 亚洲青色在线| 久久av在线看| 国产91丝袜美女在线播放| 最新中文字幕av| аⅴ资源天堂资源库在线| 中文一区在线播放| 久久大片网站| 国产a级免费视频| 石原莉奈在线亚洲二区| 欧美高清在线播放| 国产又色又爽又高潮免费| 色哟哟精品丝袜一区二区| 5858s免费视频成人| 国产乱子夫妻xx黑人xyx真爽| av免费在线观看网址| 久久精品男人天堂av| 国产乱码精品一区二区三区中文| 国产精品嫩草影院桃色| 日韩黄色在线观看| 午夜精品三级视频福利| 91在线播放观看| 久久精品高清| 中文字幕精品www乱入免费视频| 毛茸茸free性熟hd| 一区二区精彩视频| 在线不卡中文字幕播放| www.天天射.com| 欧美天堂视频| 精品色蜜蜜精品视频在线观看| 日本一级黄视频| 欧美尤物美女在线| 中文字幕欧美国产| 日韩精品大片| 精品三级久久久久久久电影聊斋| 99精品一区二区| 国产日韩精品推荐| 黄色福利在线观看| 成人av在线一区二区三区| 99精品在线直播| 超碰在线人人干| 国产高清亚洲一区| 国产99在线免费| 黄色av网站免费在线观看| 国产91精品一区二区麻豆亚洲| 5566av亚洲| а√中文在线资源库| 国产成人日日夜夜| 成人亚洲精品久久久久软件| 97免费在线视频| www.毛片.com| 日韩精品久久理论片| 国产精品精品一区二区三区午夜版| 色av性av丰满av| 日韩电影免费在线| 国产精品永久免费视频| 国产精品无码在线播放| 国产激情一区二区三区四区 | 欧美一区二区三区免费在线看 | 成人av动漫在线| 九色一区二区| 国产主播福利在线| 国产精品二三区| 欧美交换配乱吟粗大25p| 美女尤物在线视频| 色一情一伦一子一伦一区| 五月婷婷狠狠操| 国产人与zoxxxx另类91| 欧美成人精品高清在线播放| 中国极品少妇videossexhd| 蜜桃一区二区三区| 久久精品国产电影| 男人天堂中文字幕| 日韩专区欧美专区| 97久久天天综合色天天综合色hd| 可以免费观看的毛片| 久久久久国产精品麻豆| 国产精品h视频| 92久久精品| 欧美三级乱人伦电影| 手机在线播放av| 香蕉久久夜色精品国产更新时间| 日韩中文字幕网| 久久夜靖品2区| 麻豆专区一区二区三区四区五区| 粉嫩av免费一区二区三区| 深夜福利免费在线观看| 中文字幕在线观看一区| 成人在线观看你懂的| 成人视屏在线观看| 麻豆国产91在线播放| 亚洲福利视频二区| 1024手机在线观看你懂的| 欧美日韩少妇| 国产精品女人网站| 日韩一级免费毛片| 亚洲欧洲日韩一区二区三区| 99热自拍偷拍| 免费一级欧美片在线观看网站| 亚洲伦理中文字幕| 久久久久久久久久久网| 麻豆精品一区二区三区| 韩国一区二区三区美女美女秀| 香蕉视频网站在线观看| 欧美性生交xxxxx久久久| 69久久精品无码一区二区| 欧美一级精品| 欧美在线性爱视频| 亚洲第一页视频| 中文字幕在线不卡一区二区三区| 日韩少妇内射免费播放18禁裸乳| 国产精品白丝久久av网站| 亚洲日本中文字幕| 免费观看成人毛片| 国产成人亚洲综合a∨婷婷图片| 亚洲 国产 欧美一区| 一根才成人网| 日韩久久免费电影| 国产一级视频在线| 国产精品996| 中文视频一区视频二区视频三区| 韩国精品主播一区二区在线观看 | 国产精品99一区二区| 国产裸体写真av一区二区| 黑人与亚洲人色ⅹvideos| 天天av天天翘天天综合网色鬼国产| 亚洲av毛片在线观看| 久久亚洲国产| 国产精品亚洲一区二区三区| 91吃瓜网在线观看| 欧美三级乱人伦电影| 一级在线观看视频| 麻豆精品国产91久久久久久| 亚洲国产精品日韩| 久久电影天堂| 北条麻妃在线一区二区| 爱豆国产剧免费观看大全剧苏畅| 男人av在线| 五月婷婷色综合| 亚洲国产果冻传媒av在线观看| 亚洲国产高清一区二区三区| 国产福利久久| 蜜桃视频m3u8在线观看| 日韩精品久久久久久久玫瑰园| 欧美一级视频免费观看| 久久久久免费观看| 污污动漫在线观看| 99热在线成人| 国产高清精品一区二区| av在线视屏| 亚洲精品一区二区久| 一级久久久久久| 国产精品久久久久永久免费观看 | 亚洲男人天堂久| www.欧美色| 国产精品高潮呻吟久久| 手机在线免费毛片| 国产视频亚洲| 日韩av电影在线观看| 一级欧美视频| 午夜精品一区二区三区在线播放 | 亚洲精品一区二区三区在线| 久久久久日韩精品久久久男男 | 国产免费av国片精品草莓男男| 精品视频9999| 日产精品久久久久久久性色| 欧美日韩一级二级| 激情小说中文字幕| 久久久久久久精| 五月天视频在线观看| 在线观看视频免费一区二区三区| 免费在线成人av| 日本午夜精品久久久久| 久久久久久亚洲精品中文字幕| 九色视频网站在线观看| 欧美一区二区三区四区久久| 日韩三级免费看| 国产精品美女一区二区| 大尺度在线观看| 男女男精品视频网| 免费无码毛片一区二三区| 欧美亚洲国产一区| 国产在线一区二区三区欧美| 青青热久免费精品视频在线18| 欧美成aaa人片在线观看蜜臀| 久久精品蜜桃| 精品国产乱码久久久久久浪潮| 人妻中文字幕一区二区三区| 夜夜嗨av一区二区三区中文字幕| 欧美多人猛交狂配| 国产91精品免费| www午夜视频| 国产亚洲欧洲| www.男人天堂网| 欧美在线观看视频一区| 国产视频一区二区三区四区| 四虎精品在线观看| 青青草成人在线| 丁香花在线电影小说观看| 色青青草原桃花久久综合| 亚洲 国产 欧美 日韩| 日韩欧美国产午夜精品| 在线观看亚洲黄色| 欧美日韩激情网| 免费在线观看国产精品| 国产精品高潮呻吟| 日本人亚洲人jjzzjjz| 91一区一区三区| www.四虎精品| 国产成人在线视频网站| 欧美美女一级片| 蜜臀久久99精品久久久画质超高清 | 亚洲国产综合网| 欧美精品自拍偷拍| 亚洲手机在线观看| 欧美影院午夜播放| 波多野结衣在线电影| 欧美日韩在线一区| 五月婷婷开心网| 亚洲成人你懂的| 免费观看一级视频| 亚洲国产视频网站| 久久成人国产精品入口| 一区二区三区四区蜜桃| 国产午夜精品理论片| 亚洲色欲色欲www在线观看| 欧洲性xxxx| 国产精品免费视频观看| 精品一区二区6| 国产精品欧美一区二区三区| 亚洲v国产v欧美v久久久久久| 久久一区二区三区国产精品| 丰满大乳奶做爰ⅹxx视频| 91丨porny丨蝌蚪视频| 一起草在线视频| 91麻豆产精品久久久久久| 少妇激情一区二区三区视频| 9人人澡人人爽人人精品| av av在线| www激情久久| 五月天精品视频| 亚洲国产精品精华液ab| 婷婷综合在线视频| 国产精品久久久久久久久免费相片| 一本色道久久88| 亚洲男人天堂一区| 国产一级视频在线| 疯狂做受xxxx高潮欧美日本| 色老头一区二区| 欧美日本精品一区二区三区| av高清一区二区| 欧美精品一区二区久久久| 视频一区二区在线播放| 亚洲最新中文字幕| 高清全集视频免费在线| 九九九久久久久久| 中文在线中文资源| 国产精品视频自在线| 国产高清亚洲| 九九九九精品九九九九| 欧美日韩在线观看视频小说| japanese在线视频| 99精品福利视频| 成人精品视频一区二区| 精一区二区三区| 香蕉视频污视频| 国产三级一区二区| 欧美日韩在线观看免费| 欧美视频在线免费| 国产又粗又猛又爽又黄91| 精品国产一区二区三区av性色| 天堂av在线7| 久久伊人91精品综合网站| 极品视频在线| 91免费福利视频| 伊人久久大香线蕉综合网蜜芽| 亚洲在线视频一区二区| 亚洲精品四区| 午夜精品免费看| 91一区在线观看| tube国产麻豆| 色欧美乱欧美15图片| 国产高清免费av| 亚洲香蕉成人av网站在线观看| 在线观看的网站你懂的| 国产激情综合五月久久| 超碰97久久| 综合一区中文字幕| 性欧美长视频| 中文在线字幕观看| 国产精品乱人伦一区二区| yjizz国产| 欧美成人vps| 欧美一区二区三区在线观看免费| 欧美中文字幕视频在线观看| 国产欧美日韩电影| 亚洲欧美成人一区| 丝袜国产日韩另类美女| 国产高清成人久久| 亚洲精品国产a| 国产又粗又猛又爽又黄视频| 亚洲区一区二区| 悠悠资源网亚洲青| 国产精品久久久久久久天堂第1集| 国产精品成人a在线观看| 国产福利视频在线播放| 成人av片在线观看| 欧美成人精品一区二区免费看片| 欧美三级资源在线| 国产日产精品久久久久久婷婷| 91成人精品网站| 久草在线综合| 无码人妻精品一区二区蜜桃网站| 美国十次了思思久久精品导航| 国产免费看av| 欧美性xxxx18| 午夜成人鲁丝片午夜精品| 欧美极品少妇xxxxⅹ喷水| 日本亚州欧洲精品不卡| 欧美一级免费在线观看| 激情六月婷婷久久| 欧美特黄一级片| 7777精品伊人久久久大香线蕉最新版 | 日本免费一区二区三区四区| 国产一区二区三区奇米久涩| 激情欧美丁香| 日本久久久久久久久久| 一卡二卡欧美日韩| 亚洲精品国产av| 欧美激情综合亚洲一二区 | 精品国产麻豆免费人成网站| 一区二区三区伦理| 97se视频在线观看| 亚洲视频狠狠| 无码一区二区精品| 欧美日韩国产中文精品字幕自在自线| 日本免费不卡视频| 欧美亚洲视频在线看网址| 免费一区二区| 免费看污污网站| 国产精品国产自产拍高清av| 97精品人妻一区二区三区| 欧美成人免费大片| 哺乳一区二区三区中文视频| 国产va亚洲va在线va| 99久久精品国产麻豆演员表| 久久久久99精品成人片三人毛片| 日韩精品视频免费在线观看| 国产不卡网站| 亚洲草草视频| 国产精品一区二区你懂的| 欧美成人综合色| 日韩电视剧在线观看免费网站| 日韩在线影院| 91香蕉视频网址| www.久久久久久久久| 波多野结衣家庭主妇| 久久精品视频导航| 亚洲91网站| 国产1区2区在线| 综合久久国产九一剧情麻豆| 黄色a在线观看| 国产精品久久久久久超碰| 一区二区三区在线| 丰满大乳奶做爰ⅹxx视频| 欧美性大战久久久| 爱福利在线视频| 神马一区二区影院| 国产精品99精品久久免费| 九九精品免费视频| 日韩专区在线观看| 久久夜色电影| 国产一级片自拍| 午夜成人在线视频| 永久av在线| 久久国产主播精品| 韩国成人福利片在线播放| 日本少妇做爰全过程毛片| 在线成人激情黄色| 成人av地址| 亚洲一区二区福利视频| 欧美性高潮床叫视频|