Karpathy組建大模型「議會」,GPT-5.1、Gemini 3 Pro等化身最強智囊團
從短視頻到 AI 模型,人們消費內容的習慣又一次向追求效率改變。
在閱讀長文、論文或海量信息時,越來越多人不再耐心從頭到尾瀏覽,而是傾向于直接獲取高密度、快速可吸收的知識。讓大模型直接來一段總結 —— 比如評論區一句「@元寶,總結一下」—— 已經成為一種普遍的做法。
這并不是說有什么不好。這恰恰說明在 AI 時代,高效獲取信息本身就是人類能力的一次躍遷。
甚至連 AI 領域的大佬們也不例外。前 OpenAI 聯合創始人、特斯拉 AI 總監 Andrej Karpathy 也一樣。他在前幾天發推,說自己「開始養成用 LLM 閱讀一切的習慣」。

這和大多數人的閱讀習慣非常相似,結合自己閱讀的感悟和大模型的信息總結,我們能夠形成一系列更完善的認知。
當然了,大語言模型有那么多,在獲取信息,整理觀點時面對不同類型的內容,其能力也是參差不齊。為了獲取更加高質量的結果,Karpathy 毅然決定,讓最新最強的四家大模型一起干活。
于是,Karpathy 在周六用氛圍編程做了個新的項目,讓四個最新的大模型組成一個 LLM 議會,給他做智囊團。
他認為:與其把問題單獨問給某一家你最愛的 LLM 服務提供商,不如把它們都組建成一個屬于你的 「LLM 議會」。

這個 LLM 議會是一個 Web 應用,界面看起來和 ChatGPT 一模一樣,但每次用戶提問其實會經歷以下流程:
1)問題會被分發給議會中的多個模型(通過 OpenRouter),比如目前是:
- openai/gpt-5.1
- google/gemini-3-pro-preview
- anthropic/claude-sonnet-4.5
- x-ai/grok-4
2)然后所有模型都能看到彼此匿名處理過的回答,并對這些回答進行 審閱和排名;
3)最后,一個「主席模型(Chairman LLM)」會把這些內容作為上下文,生成最終回答。
這個事兒看起來非常眼熟,和知名游戲博主 PewDiePie 用氛圍編程做的「大模型委員會」簡直心有靈犀。
具體來說,他使用 8 個配置了不同提示詞(因此性格不同)的同一模型(gpt-oss-20b)組成了一個委員會。當 PewDiePie 提問時,每個模型都會給出一個答案,然后它們又會對答案進行投票,從中選出最好的答案。
而 Karpathy 這個項目則是使用了不同的大模型進行,更加多樣化。
把多個模型的回答并排放在同一個問題下看,是一件很有意思的事情。尤其是加入了多個大模型之間的相互評價和投票機制后,簡直是一場全新的「賽博斗蛐蛐」。
很多時候,這些模型竟然愿意承認別家的回答比自己的更好,使得這個流程成為一種非常有意思的模型評估方式。
比如,Karpathy 和「LLM 議會」一起讀書時,它們一致稱贊 GPT 5.1 是表現最好、洞見最豐富的模型,而始終把 Claude 排在最后,中間則是其他模型浮動。但 Karpathy 卻不完全認同這種排序 —— 比如從主觀感受上,GPT 5.1 對他來說稍微有點啰嗦、鋪陳太多,而 Gemini 3 更凝練、處理得更好。Claude 在這個領域又顯得過于簡潔。
誰不喜歡看大模型之間的辯論呢?
具體而言,整個項目有三個步驟:
Stage 1:首次意見
用戶的提問會被單獨發給議會中的所有模型,并收集它們的回答。所有回答將以「標簽頁視圖」展示,讓用戶可以逐個查看。
Stage 2:互評
每個 LLM 會看到其他模型的回答。后臺會將模型身份匿名化,以避免模型「偏袒自己」或偏好某個特定模型。每個 LLM 會被要求基于 準確性與洞察力 對其他回答進行排名。
Stage 3:最終回答
被指定為「議會主席」的 LLM 會接收所有模型的回答與排名,并把這些信息整理成一個最終輸出,呈現給用戶。
有網友認為,這種形式最終可能成為一種基準測試:

話雖如此,LLM 議會的數據流設計可能還有一整片未被探索的設計空間。多模型集成的構建方式可能還遠未被充分研究。
如果大家也對這個項目感興趣,Karpathy 已經將該項目開源。
- 項目地址:https://github.com/karpathy/llm-council
但提醒一下:Karpathy 不會對這個項目提供任何支持,它是原樣提供的、為其他人提供靈感的小工具,他也不打算繼續改進它。
我們在之前的測試中,也用氛圍編程的方法復刻了一個差不多的項目,和 Karpathy 的 LLM 議會略有相似,使用了兩個不同的模型部署。
或許我們也可以把這個小項目開源出來讓大家玩一玩?































