6.4萬star的開源智能體框架全面重構!OpenHands重大升級,叫板OpenAI和谷歌
剛剛,OpenHands 開發團隊發布了一篇新論文,正式宣布廣受歡迎的軟件開發智能體框架 OpenHands (GitHub star 已超 6.4 萬)中的智能體組件完成了架構重構,即 OpenHands Software Agent SDK。
這一輪重新設計改進巨大,也讓 OpenHands 從 V0 進化到了 V1。包括:
- 靈活性方面,他們設計了一個簡潔的接口,在默認情況下僅需幾行代碼即可實現智能體,但又易于擴展為具有自定義工具、內存管理等功能的、功能齊全的復雜智能體。
- 在安全性和可靠性方面,它提供了無縫的本地到遠程執行可移植性、集成的 REST/WebSocket 服務。
- 為了與人類用戶交互,它可以直接連接到各種界面,如可視化工作區(VS Code、VNC、瀏覽器)、命令行界面和 API。
- 與現有的 OpenAI、Claude 和 Google 的 SDK 相比,OpenHands 獨特地集成了原生沙盒化執行、生命周期控制、模型無關 (model-agnostic) 的多 LLM 路由以及內置的安全分析。
該團隊表示:「這些元素使得 OpenHands Software Agent SDK 能夠為原型設計、解鎖新型自定義應用以及大規模可靠部署智能體提供一個實用的基礎。」

- 論文標題:The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents
- Software Agent SDK: https://github.com/OpenHands/software-agent-sdk
- 基準:https://github.com/OpenHands/benchmarks
OpenHands V1 的四項設計原則
OpenHands 團隊表示,OpenHands V0 最初設計為單體架構,即將智能體邏輯、評估和應用組合在同一個代碼庫中;這樣做目的是為了實現快速原型設計和迭代,但這種設計在項目的發展中暴露出了許多短板,包括沙盒僵化、可變配置龐雜,以及研究與生產之間過度耦合。因此,全面的重構勢在必行。

汲取了這些教訓,OpenHands V1 引入了一個基于四項設計原則的新架構,這些原則直接解決了 V0 的局限性。具體來說,這些原則包括:
1、沙盒化應該是可選的,而非普遍適用的
V1 默認設置是在單個進程中統一智能體和工具的執行,這與 MCP 的假設一致。當需要隔離時,同一個棧可以被透明地容器化。沙盒化變成了可選的,從而在不犧牲安全性的前提下保持了靈活性。
2、默認無狀態,狀態的真值來源單一
V1 將所有智能體及其組件(工具、LLM 等)視作在構建時即被驗證的、不可變的且可序列化的 Pydantic 模型。唯一可變的實體是會話狀態,它是一個單一的、明確定義的真值來源(source of truth),用于跟蹤正在進行的執行。這種設計將變化隔離在一個地方,實現了確定性重放、強一致性和穩定的長期恢復。
3、保持嚴格的相關項分離
V1 將智能體核心隔離成了「軟件工程 SDK」。應用通過 SDK API 進行集成,使得研究可以獨立于應用進行演進。
4、一切都應是可組合且可安全擴展的
V1 將可組合性作為兩個層面上的首要設計目標。
在部署層面,其四個模塊化包(SDK, Tools、Workspace 和 Agent Server)可以靈活組合,以支持本地、托管或容器化執行。
在能力層面,該 SDK 會暴露一個類型化的組件模型(工具、LLM、上下文等),讓開發人員可以聲明式地擴展或重新配置智能體,而無需觸及核心。
OpenHands V1:一個完整的軟件智能體生態系統
OpenHands V1 便是基于這些原則而生的,這是一個完整的軟件智能體生態系統,包括 CLI 和 GUI 應用。它們構建在一個共享的基礎上:OpenHands Software Agent SDK (圖 1b)。
下圖展示了一個極簡示例:

該 SDK 定義了一個具有確定性重放 (deterministic replay) 功能的事件溯源 (event-sourced) 狀態模型、一個用于智能體的不可變配置,以及一個集成了 MCP 的類型化工具系統。

其工作區抽象使得同一個智能體能夠在本地運行以進行原型設計,或者在安全、容器化的環境中遠程運行,而只需最少的代碼更改。

與之前僅提供庫的 SDK 不同,OpenHands 包含一個用于遠程執行的內置 REST/WebSocket 服務器,以及一套用于人工審查和控制的交互式工作區界面 —— 一個基于瀏覽器的 VSCode IDE、VNC 桌面和持久化的 Chromium 瀏覽器。

該團隊還系統地比較了其 SDK 與 OpenAI Agents SDK、Claude Agent SDK 和 Google ADK 的 31 個特性,發現盡管有 15 個特性與它們中的至少一個共享,但 OpenHands 的 SDK 獨特地結合了 16 個額外特性,包括原生遠程執行、帶沙盒功能的生產服務器,以及跨越 100+ 供應商的模型無關的多 LLM 路由。


該 SDK 還增加了一個用于智能體操作的安全分析器、靈活的生命周期控制(暫停 / 恢復、子智能體委托、歷史恢復等),以及用于保障生產可靠性的內置 QA (質量保證) 插樁(單元測試、基于 LLM 的集成測試和評估基準)。
OpenHands Software Agent SDK 已在 MIT 許可下完全開源。
可靠性與評估
該團隊通過兩個互補的過程評估了 OpenHands Agent SDK 的可靠性和性能:持續測試和基準評估。
持續測試流程結合了程序化測試和基于 LLM 的測試,并在每個拉取請求 (pull request) 上自動運行,且每天運行一次。它檢查的是 SDK 在多種語言模型下是否表現一致,及早發現推理、工具使用和狀態管理方面的回歸問題。這些自動化測試每次完整運行的成本僅為 0.5–3 美元,并能在 5 分鐘內完成。
而基準評估則是在標準化的智能體任務上衡量 SDK 的整體能力,從而幫助了解模型質量和系統性能。
持續質量保證
該 SDK 采用了三層測試策略來平衡覆蓋范圍、成本和深度:
- 程序化測試:在每次提交 (commit) 時運行。這些測試模擬 llm 調用,并在幾秒鐘內驗證核心邏輯、數據流和 API 協定。模擬可以實現更快的反饋,確保在進行任何外部 API 調用之前捕獲到大多數回歸問題。
- 基于 LLM 的測試:包括集成測試和示例測試 (見下文)。每天執行,并可按需為拉取請求執行。這些測試使用真實模型 (Claude Sonnet 4.5, GPT-5 Mini, DeepSeek Chat) 來驗證推理、工具調用和環境穩定性。每次運行成本為 0.5–3 美元,并在 5 分鐘內完成。
- 基準評估:按需進行的高成本評估(每次運行 100–1000 美元,耗時數小時),用于衡量學術數據集上的綜合智能體能力。
集成測試覆蓋多種基于場景的工作流(例如,文件操作、命令執行、git 操作和瀏覽),而示例測試(example tests)則會定期運行所有 SDK 示例(自定義工具、MCP 集成、持久化、異步執行、路由等),以確保端到端的可靠性。該測試套件會隨著新智能體行為和故障模式的發現而不斷擴展,從而提高覆蓋范圍和回歸敏感性。
該團隊還針對這些基于 LLM 的測試的按需執行進一步優化了 CI/CD 成本:集成測試針對高風險變更,示例測試覆蓋面向用戶的模塊,而每日運行則跟蹤整個代碼庫更新中的回歸問題。
基準測試
該 SDK 為評估智能體能力的各種學術基準提供了內置支持。
如表 2 所示,該 SDK 在軟件工程和通用智能體基準測試中表現得很有競爭力。

在衡量智能體在軟件工程任務中能力的 SWE-Bench Verified 上,該 SDK 使用 Claude Sonnet 4.5 配合擴展思維實現了 72% 的解決率;在衡量智能體通用計算機任務解決能力的 GAIA 上,SDK 使用 Claude Sonnet 4.5 實現了 67.9% 的準確率,展現了有效的多步推理和工具使用能力。
此外,強大的開源編碼模型 Qwen3 Coder 480B 實現了 41.21% 的分數。這些結果略優于 OpenHands-Versa 的結果,表明該 SDK 的架構并未犧牲智能體能力,并實現了與研究專精系統相媲美的性能。



































