谷歌Agent正在憋大招:AI科學(xué)家內(nèi)測,錦標賽制“煉”想法,一次跑40分鐘
谷歌正秘密為其企業(yè)級產(chǎn)品Gemini Enterprise開發(fā)一項新功能:一個多智能體(multi-agent)系統(tǒng),它能夠扮演聯(lián)席科學(xué)家或研究員的角色,幫助用戶提煉想法,實現(xiàn)研究自動化。
具體來說,該系統(tǒng)的工作流程是:接收一個主題和一套評估標準,生成大量想法,然后啟動一個智能體團隊,以錦標賽(tournament-style)的形式對這些想法進行評估。
值得注意的是,該系統(tǒng)能夠讓Gemini就單個問題持續(xù)運行約40分鐘,這對于一個面向用戶的產(chǎn)品而言,是一次非常長的連續(xù)運行。
在運行結(jié)束后,用戶會收到一份根據(jù)所選標準從優(yōu)到劣排序的想法列表,一次運行可產(chǎn)出約100個想法。

對于每個想法,用戶會得到概述、詳細描述、評審摘要、完整評審報告以及專門的錦標賽表現(xiàn)報告。這份錦標賽表現(xiàn)報告會作為一項獨立輸出,可供單獨瀏覽。所有生成的想法都是可選的,方便用戶專注于特定選項并進行更深入的探索。

兩款核心智能體:“想法生成”與“聯(lián)席科學(xué)家”
在目前的預(yù)覽版中,谷歌準備了三款預(yù)置智能體,其中兩款建立在這一多智能體錦標賽系統(tǒng)之上。

一款名為“想法生成”(Idea Generation)。用戶提供一個主題,該智能體便會啟動多智能體工作流,通過錦標賽式評估來生成與該主題相關(guān)的想法并進行排序。
另一款名為“聯(lián)席科學(xué)家”(Co-scientist),更側(cè)重于科學(xué)家和研究人員。它允許用戶指定一個研究課題,提供額外數(shù)據(jù),然后由一個智能體團隊通過相同的錦標賽機制來生成和評估想法,但更聚焦于研究和科學(xué)用例。
L3級AI的體現(xiàn):強大的算力投入
這一設(shè)置最引人注目的方面之一,是其背后巨大的算力投入。
讓智能體就單個任務(wù)工作約40分鐘,與典型的智能體工具相比,算力消耗相當大。在整個運行期間,系統(tǒng)會持續(xù)對問題進行迭代。

與現(xiàn)有的智能體實現(xiàn)相比,這似乎是一個重要的進步。即使是像ChatGPT中那些能夠使用瀏覽器模式的高級智能體,通常也受到有限的上下文窗口和時間預(yù)算的限制。相比之下,谷歌的這種方法被設(shè)計成一個面向用戶的產(chǎn)品,直接向企業(yè)客戶開放了非常高的算力。

這也與“L3級AI”的理念相符,即智能體能夠持續(xù)較長時間處理一個問題。在這種背景下,單任務(wù)運行40分鐘是一個有力的例證。
目前,所有這些功能都出現(xiàn)在開發(fā)中的Gemini Enterprise內(nèi)部,尚未對普通用戶開放。
不止于原始建議,輸出結(jié)構(gòu)化研究方向
在實踐中,其主要輸出是一套經(jīng)過提煉的想法。
但這些不僅僅是原始建議,而是結(jié)構(gòu)化的研究方向。考慮到輸入的數(shù)據(jù)和原始問題,這些方向可能帶來極具價值的洞見。這體現(xiàn)了谷歌正致力于為組織、企業(yè)和研究團隊提供極其強大的智能體。

當該功能最終發(fā)布時,可能會是一次重大飛躍,特別是如果這些智能體最終由尚未發(fā)布的Gemini 3 Pro驅(qū)動。目前,Gemini 3 Pro尚未在Gemini Enterprise中可用,因此尚不清楚驅(qū)動這些實驗性智能體的具體模型。
此外,該系統(tǒng)還有一個工作流程細節(jié):當用戶提交提示時,系統(tǒng)會首先展示一份計劃中的評估和想法維度的摘要。用戶在審查并批準該摘要后,才能啟動實際任務(wù),以確保在投入大量算力之前,初始提示被正確理解。
另一項新功能:與文檔對話
除了多智能體錦標賽流程外,還有另一款名為“與文檔對話”的智能體,它擁有一個獨立的UI。
該智能體允許用戶上傳最大30MB的PDF文件,并與這些文檔進行明確的對話。其目標是讓模型能夠分析和整合多達30MB的PDF內(nèi)容到上下文,以便用戶從現(xiàn)有文檔中提取更有意義的信息。
該功能同樣是Gemini Enterprise的一部分,尚未發(fā)布,且目前在生產(chǎn)環(huán)境中無法使用。
寫在最后
在Gemini Enterprise正在開發(fā)的多項功能中,多智能體錦標賽工作流和專注于文檔的智能體最為突出。
特別是基于錦標賽的多智能體設(shè)置,看起來是一個突破性的產(chǎn)品方向,其他LLM提供商尚未真正提供達到這種水平的服務(wù)。多智能體錦標賽在面向用戶的工具中仍然很少見。
一旦這些智能體更加成熟,看到它們正式的評估和基準測試將非常有價值。僅從描述來看,“聯(lián)席科學(xué)家”智能體對于那些積極探索新科學(xué)方向的大型組織和研究團隊來說,已經(jīng)像一個非常有吸引力的工具。
目前尚不清楚這些智能體將于何時發(fā)布,也不確定是否會向企業(yè)客戶之外的用戶提供,但這絕對是值得關(guān)注的動向。




























