Karpathy組建大模型「議會」，GPT-5.1、Gemini 3 Pro等化身最強智囊團

2025-11-24 08:57:00

人工智能新聞

Karpathy 在周六用氛圍編程做了個新的項目，讓四個最新的大模型組成一個 LLM 議會，給他做智囊團。

從短視頻到 AI 模型，人們消費內容的習慣又一次向追求效率改變。

在閱讀長文、論文或海量信息時，越來越多人不再耐心從頭到尾瀏覽，而是傾向于直接獲取高密度、快速可吸收的知識。讓大模型直接來一段總結 —— 比如評論區一句「@元寶，總結一下」—— 已經成為一種普遍的做法。

這并不是說有什么不好。這恰恰說明在 AI 時代，高效獲取信息本身就是人類能力的一次躍遷。

甚至連 AI 領域的大佬們也不例外。前 OpenAI 聯合創始人、特斯拉 AI 總監 Andrej Karpathy 也一樣。他在前幾天發推，說自己「開始養成用 LLM 閱讀一切的習慣」。

這和大多數人的閱讀習慣非常相似，結合自己閱讀的感悟和大模型的信息總結，我們能夠形成一系列更完善的認知。

當然了，大語言模型有那么多，在獲取信息，整理觀點時面對不同類型的內容，其能力也是參差不齊。為了獲取更加高質量的結果，Karpathy 毅然決定，讓最新最強的四家大模型一起干活。

于是，Karpathy 在周六用氛圍編程做了個新的項目，讓四個最新的大模型組成一個 LLM 議會，給他做智囊團。

他認為：與其把問題單獨問給某一家你最愛的 LLM 服務提供商，不如把它們都組建成一個屬于你的「LLM 議會」。

這個 LLM 議會是一個 Web 應用，界面看起來和 ChatGPT 一模一樣，但每次用戶提問其實會經歷以下流程：

1）問題會被分發給議會中的多個模型（通過 OpenRouter），比如目前是：

openai/gpt-5.1
google/gemini-3-pro-preview
anthropic/claude-sonnet-4.5
x-ai/grok-4

2）然后所有模型都能看到彼此匿名處理過的回答，并對這些回答進行審閱和排名；

3）最后，一個「主席模型（Chairman LLM）」會把這些內容作為上下文，生成最終回答。

這個事兒看起來非常眼熟，和知名游戲博主 PewDiePie 用氛圍編程做的「大模型委員會」簡直心有靈犀。

具體來說，他使用 8 個配置了不同提示詞（因此性格不同）的同一模型（gpt-oss-20b）組成了一個委員會。當 PewDiePie 提問時，每個模型都會給出一個答案，然后它們又會對答案進行投票，從中選出最好的答案。

而 Karpathy 這個項目則是使用了不同的大模型進行，更加多樣化。

把多個模型的回答并排放在同一個問題下看，是一件很有意思的事情。尤其是加入了多個大模型之間的相互評價和投票機制后，簡直是一場全新的「賽博斗蛐蛐」。

很多時候，這些模型竟然愿意承認別家的回答比自己的更好，使得這個流程成為一種非常有意思的模型評估方式。

比如，Karpathy 和「LLM 議會」一起讀書時，它們一致稱贊 GPT 5.1 是表現最好、洞見最豐富的模型，而始終把 Claude 排在最后，中間則是其他模型浮動。但 Karpathy 卻不完全認同這種排序 —— 比如從主觀感受上，GPT 5.1 對他來說稍微有點啰嗦、鋪陳太多，而 Gemini 3 更凝練、處理得更好。Claude 在這個領域又顯得過于簡潔。

誰不喜歡看大模型之間的辯論呢？

具體而言，整個項目有三個步驟：

Stage 1：首次意見

用戶的提問會被單獨發給議會中的所有模型，并收集它們的回答。所有回答將以「標簽頁視圖」展示，讓用戶可以逐個查看。

Stage 2：互評

每個 LLM 會看到其他模型的回答。后臺會將模型身份匿名化，以避免模型「偏袒自己」或偏好某個特定模型。每個 LLM 會被要求基于準確性與洞察力對其他回答進行排名。

Stage 3：最終回答

被指定為「議會主席」的 LLM 會接收所有模型的回答與排名，并把這些信息整理成一個最終輸出，呈現給用戶。

有網友認為，這種形式最終可能成為一種基準測試：

話雖如此，LLM 議會的數據流設計可能還有一整片未被探索的設計空間。多模型集成的構建方式可能還遠未被充分研究。

如果大家也對這個項目感興趣，Karpathy 已經將該項目開源。

項目地址：https://github.com/karpathy/llm-council

但提醒一下：Karpathy 不會對這個項目提供任何支持，它是原樣提供的、為其他人提供靈感的小工具，他也不打算繼續改進它。

我們在之前的測試中，也用氛圍編程的方法復刻了一個差不多的項目，和 Karpathy 的 LLM 議會略有相似，使用了兩個不同的模型部署。

或許我們也可以把這個小項目開源出來讓大家玩一玩？

責任編輯：張燕妮來源：機器之心

AI LLM 模型