「套殼」的最高境界:OpenAI揭秘Atlas瀏覽器架構(gòu)OWL
面對(duì) OpenAI 上周發(fā)布的 AI 瀏覽器 Atlas,這可能是不少人的第一反應(yīng),參閱報(bào)道《剛剛,OpenAI 發(fā)布 AI 瀏覽器 ChatGPT Atlas,基于 Chromium》。但今天,OpenAI 官方用一篇技術(shù)博客「回懟」了這個(gè)說(shuō)法:我們「套」了,但和別人完全不一樣。
盡管今天還有 Sora 角色客串功能和 GPT-5 查找和修復(fù)安全漏洞智能體的消息,但本文的重點(diǎn)是深扒 Atlas 背后的「靈魂」—— OWL 架構(gòu)。看看 OpenAI 究竟是如何馴服 Chromium,把它從瀏覽器「換皮」玩成了「架構(gòu)重組」的。
基礎(chǔ)是 Chromium
OpenAI 表示,要讓 ChatGPT 成為網(wǎng)頁(yè)瀏覽的真正副駕駛,必須徹底重構(gòu)瀏覽器的底層架構(gòu):將 Atlas 與 Chromium 運(yùn)行時(shí)剝離開來(lái)。這意味著要開發(fā)一種全新的 Chromium 集成方式,如此才能滿足以下三個(gè)關(guān)鍵目標(biāo):
- 秒級(jí)啟動(dòng)速度
- 打開更多標(biāo)簽頁(yè)時(shí)依舊流暢
- 為智能體(Agent)場(chǎng)景打下堅(jiān)實(shí)基礎(chǔ)

OpenAI 強(qiáng)調(diào),Chromium 是一個(gè)天然的構(gòu)建基石。它能提供先進(jìn)的網(wǎng)頁(yè)引擎、完善的安全模型、一流的性能,以及卓越的網(wǎng)頁(yè)兼容性;更重要的是,它由全球開發(fā)者社區(qū)持續(xù)改進(jìn)。因此,它成為了現(xiàn)代桌面瀏覽器最常用的底層引擎。
重新定義瀏覽器體驗(yàn)
雖然基于 Chromium,但 OpenAI 自然也會(huì)強(qiáng)調(diào)自己的設(shè)計(jì),包括在「Agent 模式」等功能中引入豐富的動(dòng)畫和視覺效果。
這要求工程團(tuán)隊(duì)使用最現(xiàn)代的原生框架(如 SwiftUI、AppKit 和 Metal),而不是簡(jiǎn)單地給開源的 Chromium 界面「換皮」。
結(jié)果,OpenAI 表示:「Atlas 的用戶界面幾乎是從零重建的一整套全新體驗(yàn)。」
另外,為了實(shí)現(xiàn)快速啟動(dòng)和支持上百個(gè)標(biāo)簽頁(yè)同時(shí)運(yùn)行而不掉幀的目標(biāo)。還需要對(duì) Chromium 進(jìn)行一些優(yōu)化,畢竟其默認(rèn)架構(gòu)在啟動(dòng)流程、線程模型、標(biāo)簽管理等方面都非常「固執(zhí)」。
OpenAI 說(shuō):「我們考慮過(guò)大幅修改 Chromium,但那樣會(huì)讓后續(xù)更新復(fù)雜且脆弱。為了保持開發(fā)速度,我們選擇了一條更巧妙的路 —— 重新設(shè)計(jì) Chromium 的集成方式。」
他們的一個(gè)關(guān)鍵的技術(shù)標(biāo)準(zhǔn)是:不僅要加快功能實(shí)驗(yàn)、迭代和上線的節(jié)奏,還要保留 OpenAI 的工程文化 —— 第一天就能上線代碼。「每位新工程師入職第一天下午就要提交并合并一個(gè)小改動(dòng)。即便 Chromium 的源碼編譯要花幾個(gè)小時(shí),我們也得保證這一傳統(tǒng)能延續(xù)。」
OpenAI 的解決方案:OWL
為了解決這些挑戰(zhàn),OpenAI 構(gòu)建了一個(gè)新的架構(gòu)層,稱為 OWL(OpenAI’s Web Layer)。
OWL 是 OpenAI 整合 Chromium 的方式,其核心理念是:讓 Chromium 的瀏覽器進(jìn)程獨(dú)立運(yùn)行在 Atlas 主應(yīng)用進(jìn)程之外。

可以這樣理解:Chromium 通過(guò)將每個(gè)標(biāo)簽頁(yè)放入獨(dú)立進(jìn)程來(lái)革新瀏覽器架構(gòu);而 OpenAI 更進(jìn)一步 —— 把整個(gè) Chromium 從主應(yīng)用進(jìn)程中分離出來(lái),放入一個(gè)獨(dú)立的服務(wù)層。
如此方法好處多多:
- 更簡(jiǎn)潔現(xiàn)代的應(yīng)用:Atlas 主要使用 SwiftUI 和 AppKit 構(gòu)建,統(tǒng)一語(yǔ)言、統(tǒng)一技術(shù)棧、代碼干凈。
- 更快啟動(dòng):Chromium 會(huì)在后臺(tái)異步加載,Atlas 幾乎瞬間顯示畫面。
- 隔離崩潰與卡頓:即使 Chromium 出問(wèn)題,Atlas 也不會(huì)掛。
- 更少的合并沖突:OpenAI 修改的 Chromium 代碼極少,易于維護(hù)。
- 更快的開發(fā)節(jié)奏:大多數(shù)工程師無(wú)需本地編譯 Chromium,OWL 內(nèi)部以預(yù)構(gòu)建二進(jìn)制形式分發(fā),Atlas 構(gòu)建只需幾分鐘。
因此,即使是新員工,也能在第一天下午輕松提交改動(dòng)。
OWL 的工作方式
從高層來(lái)看,Atlas 瀏覽器是 OWL 客戶端,而 Chromium 瀏覽器進(jìn)程是 OWL 主機(jī)(Host)。兩者通過(guò) Mojo(Chromium 的進(jìn)程間通信系統(tǒng))進(jìn)行通信。OpenAI 編寫了 Swift(甚至 TypeScript)的 Mojo 綁定,使 Swift 應(yīng)用能直接調(diào)用主機(jī)端接口。
OWL 客戶端庫(kù)提供了一套簡(jiǎn)潔的 Swift API,用于抽象主機(jī)層的關(guān)鍵功能:
- Session:全局配置與控制
- Profile:管理用戶瀏覽數(shù)據(jù)
- WebView:渲染、輸入、導(dǎo)航、縮放等
- WebContentRenderer:將輸入事件傳遞給渲染管線
- LayerHost/Client:在 UI 與 Chromium 之間交換合成信息

此外,還提供書簽、下載、擴(kuò)展、自動(dòng)填充等服務(wù)端點(diǎn)。
渲染:跨進(jìn)程傳遞像素
WebView 在客戶端應(yīng)用中共享一個(gè)合成容器,不同標(biāo)簽頁(yè)的內(nèi)容會(huì)動(dòng)態(tài)交換顯示。在 Chromium 一側(cè),這對(duì)應(yīng)于一個(gè) gfx::AcceleratedWidget,由底層的 CALayer 支撐。
OpenAI 的設(shè)計(jì)是將該層的上下文 ID 暴露給客戶端,由 NSView 通過(guò)私有的 CALayerHost API 嵌入。

諸如 <select> 下拉框或顏色選擇器等獨(dú)立彈窗,也采用相同機(jī)制。OWL 會(huì)保持視圖幾何與 Chromium 同步,確保 GPU 合成器輸出正確分辨率和比例的內(nèi)容。
OpenAI 也借用這種機(jī)制,將 Chromium 原生界面的一部分直接投射到 Atlas 中,比如權(quán)限提示框,從而快速實(shí)現(xiàn)功能原型而無(wú)需完全重寫。
輸入事件:捕獲與轉(zhuǎn)發(fā)
通常,Chromium UI 會(huì)將 macOS 的 NSEvent 轉(zhuǎn)換為 Blink 的 WebInputEvent,然后再傳遞給渲染器。
但由于 OWL 中 Chromium 在后臺(tái)運(yùn)行,OpenAI 在 Swift 客戶端中自己完成事件轉(zhuǎn)譯,再將轉(zhuǎn)換后的事件發(fā)給 Chromium。

如果網(wǎng)頁(yè)未處理某個(gè)事件,系統(tǒng)會(huì)把事件返回客戶端,OpenAI 重新生成 NSEvent,讓 Atlas 其他部分接管輸入處理。
Agent 模式:特殊情況
Atlas 的智能體瀏覽對(duì)渲染、輸入和數(shù)據(jù)存儲(chǔ)提出了額外挑戰(zhàn)。OpenAI 的計(jì)算機(jī)使用(computer use)模型需要屏幕的完整圖像作為輸入。
但有些 UI(如 <select> 下拉框)會(huì)在標(biāo)簽頁(yè)外單獨(dú)渲染。在 Agent 模式下,OpenAI 會(huì)將這些彈窗重新合成為主頁(yè)面的一部分,讓模型在一幀中看到完整的上下文。
輸入事件同樣遵循安全原則:Agent 生成的事件直接傳給渲染器,不經(jīng)過(guò)特權(quán)瀏覽器層,以確保沙箱隔離。例如,防止自動(dòng)化事件觸發(fā)系統(tǒng)快捷鍵等非網(wǎng)頁(yè)行為。
此外,Agent 瀏覽可以在臨時(shí)「登出」上下文中運(yùn)行。它不會(huì)使用用戶的隱私模式配置,而是借助 Chromium 的 StoragePartition 創(chuàng)建獨(dú)立的內(nèi)存存儲(chǔ)。每個(gè) Agent 會(huì)話都是全新的,結(jié)束后所有 cookie 和數(shù)據(jù)都會(huì)被清除。用戶可以同時(shí)運(yùn)行多個(gè)互不干擾的「登出」 Agent 會(huì)話。
結(jié)語(yǔ)
OpenAI 最后再次重申了 Chromium 的作用:「如果沒(méi)有全球 Chromium 社區(qū)的卓越貢獻(xiàn),這一切都無(wú)法實(shí)現(xiàn)。OWL 在此基礎(chǔ)上開辟了新的方向:將引擎與應(yīng)用解耦,結(jié)合頂級(jí)網(wǎng)頁(yè)平臺(tái)與現(xiàn)代原生框架,打造更快、更靈活的架構(gòu)。」
對(duì)此,你怎么看?


























