精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OAI/谷歌/DeepSeek首次合體「AI夢之隊」!戰力飆升30%,碾壓一切單模型

人工智能 新聞
三個前沿AI能融合成AGI嗎?Sakana AI提出Multi-LLM AB-MCTS方法,整合o4-mini、Gemini-2.5-Pro與DeepSeek-R1-0528模型,在推理過程中動態協作,通過試錯優化生成過程,有效融合群體AI智慧。

三個臭皮匠頂個諸葛亮、雙拳難敵四手。。。

這些對于人類再自然不過的群體智慧思維,似乎從來沒有發生在AI身上。

我們總是期望某個AI能夠足夠智能,科技巨頭們之間的比拼也是通過單模型的不斷更新來標榜先進性。

比如o4-mini、Gemini-2.5-Pro、DeepSeek-R1-0528這些具有代表性的模型,到底哪個寫的代碼更好?

但如果,將多個AI模型的能力「融會貫通」,能否也達到三個臭AI頂個AGI的效果?

圖片

最近,一項來自于Sakana AI的研究,在推理過程中——而不是在構建——試圖將三種模型的能力整合起來。

結果令人驚訝,整合后的模型能力都遠超單個模型,三模合一的性能也好于只有兩個模型合體的性能。

圖片

Sakana AI使用一種新的推理時Scaling算法,自適應分支蒙特卡洛樹搜索AB-MCTS(Adaptive Branching Monte Carlo Tree Search)。

該算法使AI能夠高效地執行試錯操作,并讓多個前沿AI模型協同合作。

使用AB-MCTS將o4-mini、Gemini-2.5-Pro和R1-0528這三種當前最先進的AI模型組合起來,在ARC-AGI-2基準測試中取得了令人驚訝的成績。

多模型的得分遠超單獨的o4-mini、Gemini-2.5-Pro和DeepSeek-R1-0528模型。

圖片

論文地址:https://arxiv.org/abs/2503.04412

這種想法,曾經在在2024年關于進化模型融合的研究中得到過初期驗證,通過進化計算和模型融合,利用現有開源模型挖掘到了多模型所蘊含的巨大群體智慧。

圖片

但AB-MCTS更進一步,不僅在構建新模型時,而且在推理過程中也使用多個模型。

利用不斷進步的前沿模型(例如ChatGPT、Gemini和DeepSeek),生成一種新的群體智能的形式。

推理時Scaling

當你面對一個無法一眼看透的難題時,會怎么做?

很可能,你會花更長時間獨立思考,親身實踐、反復試錯,或是與他人協作。

那么,我們是不是也能讓AI用同樣的方式去解決難題呢?

  • 第一種方法和人類使用的「更長時間思考」策略如出一轍——通過RL生成更長的思維鏈,來顯著提升推理模型的能力。比如OpenAI的o1/o3和DeepSeek的R1。
  • 第二種方法,是讓模型反復審視問題、不斷優化答案,甚至在必要時推倒重來。
  • 第三種則是讓LLM之間進行頭腦風暴,類似于一種「群體智慧」。

這次團隊提出的AB-MCTS,正是通過推理時Scaling技術,讓AI不僅能高效地執行試錯,還能讓多個不同的AI進行集體思考。

圖片

駕馭搜索的兩個維度:深度與廣度

目前,有兩種常見的方法可以讓LLM進行試錯:

  • 第一種,是名為「序列優化」的深度優先搜索。它利用LLM生成答案,然后對其進行反復優化。
  • 第二種,是「重復采樣」,即讓LLM根據同一個提示詞多次生成解決方案。這種廣度優先搜索,會重復地查詢LLM,但不會參考先前嘗試的結果。而LLM的隨機性,則會對同一問題會產生不同的答案。

圖片

實踐證明,無論是深入搜索(優化現有解決方案)還是擴展搜索(生成新解決方案),都能有效幫助LLM找到更優的答案。

為了將這兩者有效地結合起來,團隊提出了一種用于推理時Scaling的、更高效的全新方法——AB-MCTS。

它能根據具體問題和上下文,在深度和廣度兩個方向上進行靈活搜索。

圖片

為了實現這種靈活搜索,AB-MCTS擴展了在AlphaGo等系統中得到成功應用的蒙特卡洛樹搜索 (MCTS),并采用湯普森采樣來決定探索方向。

具體而言,在每個節點(代表初始提示詞或一個已生成的解決方案),AB-MCTS會利用概率模型來評估兩種可能行動的潛在價值:

  • 生成一個全新的解決方案
  • 或者優化一個現有的方案

隨后,從這些模型中進行采樣,根據估算出的價值來決定下一步的探索方向。

為了評估尚未生成的新方案的質量,AB-MCTS會通過混合模型和概率分布來對評估過程進行建模,從而實現真正靈活的搜索。

第三個維度:AI

為了最大化LLM作為集體智能的潛力,一個名為Multi-LLM AB-MCTS的系統應運而生。

它不僅能自適應地探索搜索方向,還能根據給定的問題和情境,選擇使用哪個LLM。

圖片

具體來說,Multi-LLM AB-MCTS的運作方式如下:

  • 步驟1:算法將決定是(1)選擇一個現有節點(深入搜索),并在下一層級重復步驟1;還是(2)從當前節點生成一個新的解決方案(擴展搜索),并進入步驟2。
  • 步驟2:選擇一個LLM。
  • 步驟3:被選中的LLM會基于父節點生成一個更優的解決方案,并對結果進行評估。這個新生成的解決方案將作為一個新節點添加到搜索樹中。

至于如何選擇模型,團隊的方法是——

  • 首先,為每種模型分配了一個獨立的概率模型,并采用類似AB-MCTS的方式使用湯普森采樣;
  • 然后,這些概率模型就會根據每個LLM在搜索過程中的表現進行更新;
  • 最終,讓表現更優的LLM被選中的可能性越來越高。

實驗結果

ARC-AGI旨在評估一種類人、靈活的智能,這種智能可以高效地進行推理并解決新問題,而不像傳統指標那樣測試特定技能或知識。

實驗采用的是更具挑戰性的ARC-AGI-2。

圖片

來自ARC-AGI-2的一個示例問題:任務是從左側的三個演示案例中推斷出共同的轉換規則,并將其應用到右側的測試案例中。

為了主要評估搜索算法的最大潛在性能,使用了Pass@k指標,該指標用于衡量在k次嘗試內是否至少找到了一個正確的解決方案。

這與ARC-AGI-2比賽的官方標準不同,后者通常采用Pass@2標準(提交兩個最終答案,其中一個是正確的)。

Pass@2方法需要從搜索結果中選擇有希望的候選方案的額外步驟。

實驗是在ARC-AGI-2的公共評估集中的120個任務上進行的。

圖片

結合Gemini-2.5-Pro與DeepSeek-R1-0528的Multi-LLMAB-MCTS在Pass@250上表現出更高的得分。

圖片

重復采樣一直被認為是ARC-AGI中一種非常有效的方法。

事實上,在實驗中,使用o4-mini進行重復采樣成功解決了23%的問題(即生成了能夠正確轉換測試用例的Python代碼)。

這一結果遠超單次嘗試的得分,展示了重復采樣的強大能力。

AB-MCTS進一步將得分提高至27.5%。這兩種方法之間的差異在約50次LLM調用后變得更加明顯。

通過將前沿模型作為具有多LLMAB-MCTS的集體智能加以利用,最終能夠為超過30%的問題找到正確的解決方案。

在Multi-LLMAB-MCTS中發現的一個關鍵特征是它能夠根據各個LLM在特定問題上的專長動態地分配它們。

下圖清楚地展示了這一行為:對于在演示示例中成功率較高的情況(圖的左側),觀察到對某個特定LLM的明顯偏好。

這種偏向發生的原因是在搜索過程中,算法識別出哪個LLM對于給定的問題最有效,并隨后增加該模型的使用頻率。

圖片

還有一些有趣的例子,其中單個LLM無法解決的問題在組合使用多個LLM后得以解決。

這超出了為每個問題分配最佳LLM的簡單做法。

在下面的例子中,盡管o4-mini最初生成的解答是錯誤的,但DeepSeek-R1-0528和Gemini-2.5-Pro能夠在下一步將其作為提示來得出正確的解答。

這表明Multi-LLMAB-MCTS可以靈活地結合前沿模型,解決原本無法解決的問題,從而推動將LLMs用作集體智能所能實現的邊界。

圖片

使用Multi-LLMAB-MCTS解決ARC-AGI-2時的搜索樹示例。

節點中的數字表示生成順序,顏色代表所選的LLM。

黃色節點表示生成了正確轉換測試用例的代碼的節點。

這是一個單一LLM均無法找到解決方案,但通過多個LLM的組合成功解決問題的示例。

圖片

多LLMAB-MCTS使得不同LLM之間能夠協作。

上圖展示了一個例子,其中DeepSeek-R1-0528在o4-mini(來自上圖問題中生成的錯誤解答)的基礎上改進,最終得出了正確答案。

Multi-LLMAB-MCTS旨在通過推理時Scaling多個前沿模型的合作來提升性能。在結合多個LLM方面,也提出了諸如多智能體辯論(Multiagent Debate)、智能體混合(Mixture-of-Agents)和LE-MCTS等其他方法。

自2024年中以來,「推理」模型逐漸受到重視,這些模型通過強化學習優化推理過程,開啟了繼模型擴展之后的新范式——推理時Scaling時代。

通過反復執行這些模型的推理過程,并結合多個具有獨特個性的LLMs,可以進一步提升推理性能。

盡管人類大腦本身已堪稱自然奇跡,但真正撼動時代的偉業,從不屬于孤膽英雄。

無論是將人類送上月球的阿波羅計劃,構建全球信息命脈的互聯網,還是破譯生命密碼的人類基因組計劃,這些里程碑式的成就,皆源于無數頭腦之間的協作與共鳴。

正是多樣知識的交匯、思想的碰撞,才讓我們一次次突破人類智慧的邊界——這種智慧同樣適用于AI。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-12-07 19:01:25

2025-11-18 09:11:48

2025-10-21 08:59:00

2020-09-16 11:46:05

AI

2014-07-21 13:19:36

2025-03-10 13:11:00

2025-04-11 09:15:00

語言模型AI數據

2024-03-19 08:18:46

GPT-5算力Altman

2018-02-07 10:31:08

IBM云存儲

2018-09-18 09:52:46

Windows Pho谷歌微軟

2025-07-10 08:50:00

2023-06-27 13:37:17

谷歌AI

2023-07-09 15:18:27

谷歌AI隱私

2025-05-07 10:12:52

英偉達模型AI

2025-03-27 09:47:23

訓練模型AI

2014-11-20 17:46:08

2023-12-29 07:54:33

AI智能體人工智能

2016-08-31 17:24:05

大數據分析

2012-12-31 11:22:58

開源開放
點贊
收藏

51CTO技術棧公眾號

亚洲国产综合视频在线观看| 国产美女娇喘av呻吟久久 | 97成人免费视频| 亚洲免费二区| 精品亚洲一区二区三区在线播放 | 亚洲一区二区在| 亚洲av综合色区无码一二三区| 夜夜嗨网站十八久久| 色吧影院999| 亚洲啪av永久无码精品放毛片| 精品国模一区二区三区| 一区二区三区不卡视频| 鲁片一区二区三区| 国产人妻精品一区二区三区| 男人的天堂成人在线| 久久久精品国产网站| 成年人网站免费看| 亚洲高清999| 欧美私模裸体表演在线观看| 日本免费a视频| 午夜视频在线看| 成人av在线资源网站| 国产欧美亚洲精品| 国产无套丰满白嫩对白| 欧美aa国产视频| 在线观看欧美日韩| 国产精品无码电影| 三级欧美日韩| 51精品视频一区二区三区| 茄子视频成人免费观看| 日本高清成人vr专区| 国产精品无人区| 免费h精品视频在线播放| 亚洲av无码一区二区三区性色 | 国产精品入口夜色视频大尺度 | 爱爱的免费视频| 成人免费直播在线| 日韩精品一区二区三区四区| 久久久久国产一区| 欧美日韩激情电影| 欧美性猛交xxxx免费看久久久| 欧美中文字幕在线观看视频| 日本在线免费| 国产精品久久国产精麻豆99网站| 日本一区网站| 黄色片在线免费观看| 91麻豆国产精品久久| 国产乱码精品一区二区三区卡 | 一本久道久久综合| 北条麻妃在线| 国产嫩草影院久久久久| 涩涩涩999| 成人在线免费公开观看视频| 久久久久久一级片| 欧美日韩精品一区| 久蕉在线视频| 国产欧美日韩在线| 视频在线精品一区| 日本精品在线| 日韩毛片精品高清免费| 日本丰满少妇黄大片在线观看| 麻豆系列在线观看| 亚洲色图在线视频| av影院在线播放| 丁香花视频在线观看| 亚洲高清视频在线| 欧美日韩国产精品激情在线播放| 亚洲涩涩在线| 欧美伊人久久大香线蕉综合69 | 日韩三级视频在线| 国产农村妇女精品一区二区| 日本高清不卡的在线| 成人a v视频| 精品在线你懂的| av一区二区在线看| 五月天激情开心网| 久久精品亚洲一区二区三区浴池| 日日噜噜噜噜夜夜爽亚洲精品| 在线观看麻豆| 亚洲天堂免费看| 久艹在线免费观看| 欧美精品高清| 8x福利精品第一导航| 久久久久久久久久影视| 在线成人动漫av| 最近中文字幕日韩精品| 男人操女人的视频网站| 99成人免费视频| 国产精品亚洲综合天堂夜夜| 国产丝袜在线视频| 久久综合色8888| 这里只有精品66| 91豆花视频在线播放| 日本韩国欧美一区| 欧美69精品久久久久久不卡| 亚洲另类春色校园小说| 久久中国妇女中文字幕| 日韩av无码中文字幕| 蜜臀a∨国产成人精品| 高清国产一区| av大片在线观看| 亚洲国产精品久久久男人的天堂 | 日本污视频在线观看| 麻豆极品一区二区三区| 国产区一区二区| 欧美性天天影视| 天天影视网天天综合色在线播放| 日本特黄a级片| 色吊丝一区二区| 欧美猛交ⅹxxx乱大交视频| 一本一道无码中文字幕精品热| 国产在线观看免费一区| 任我爽在线视频精品一| 成人福利影视| 91精品蜜臀在线一区尤物| 欧洲女同同性吃奶| 亚洲黑丝一区二区| 亚洲最大的成人网| 在线中文资源天堂| 欧美性高跟鞋xxxxhd| 蜜桃色一区二区三区| 欧美oldwomenvideos| 69国产精品成人在线播放| 国产视频一二三四区| 国产精品色在线| 六月丁香婷婷在线| 美女av一区| 欧美福利视频网站| 精品女同一区二区三区| 成人免费在线播放视频| 亚洲这里只有精品| 精品国产欧美日韩| 国产91色在线|| 午夜影院在线视频| 精品女厕一区二区三区| 日本少妇xxxx| 亚洲精品日本| 国产乱码精品一区二区三区中文| 宅男网站在线免费观看| 91精品国产全国免费观看| 亚洲激情图片网| 免播放器亚洲一区| 天堂资源在线亚洲资源| 日韩成人高清| 一区二区三欧美| 无码久久精品国产亚洲av影片| 91蝌蚪porny九色| 国产91美女视频| 亚洲妇女av| 日韩免费视频在线观看| 九色网友自拍视频手机在线| 色先锋aa成人| 日本污视频网站| 久久99精品久久久久久 | 夜夜爽av福利精品导航| 精品国产中文字幕| 欧美巨大丰满猛性社交| 日韩精品极品毛片系列视频| 手机看片久久久| 欧美韩国日本不卡| 精品久久久99| 91精品蜜臀一区二区三区在线| 成人精品视频久久久久| 视频在线观看入口黄最新永久免费国产| 欧美一级欧美一级在线播放| 激情五月婷婷在线| aa级大片欧美| 污污视频网站免费观看| 日韩欧美高清| 超碰97人人人人人蜜桃| 黄色在线观看www| 亚洲日韩第一页| 91麻豆成人精品国产| 一区二区欧美国产| 熟妇高潮精品一区二区三区| 久久天堂精品| 中文字幕一区二区三区有限公司| 日韩精品成人| 日韩av手机在线| 免费黄色在线网站| 精品欧美一区二区在线观看| 草久视频在线观看| 国产精品美日韩| 无码国产精品一区二区免费式直播 | 亚洲伦理久久| 亚洲91精品在线| 91在线看黄| 欧美www视频| 亚洲GV成人无码久久精品| 国产精品不卡在线| 亚洲激情 欧美| 久久电影网电视剧免费观看| 欧美一级爱爱视频| 国产一区三区在线播放| 92看片淫黄大片欧美看国产片| 国内激情视频在线观看| 日韩一区二区欧美| 性插视频在线观看| 欧美一区二区性放荡片| 激情视频网站在线观看| 一区二区三区欧美亚洲| 欧美成人国产精品一区二区| 国产精品1区2区3区| 日韩一级免费在线观看| 国产精品v欧美精品v日本精品动漫| 日本高清一区| 久草在线综合| 成人免费福利在线| 日日av拍夜夜添久久免费| 欧美激情在线观看| 日本电影全部在线观看网站视频| 日韩久久精品成人| 精品国自产在线观看| 欧美天堂一区二区三区| 亚洲免费在线视频观看| 一区二区三区资源| 99热这里只有精品4| 久久精品视频免费观看| 岛国av免费观看| 国产精品亚洲成人| 欧美日韩精品区别| 日本色综合中文字幕| 国产在线青青草| 激情亚洲网站| 777久久精品一区二区三区无码 | 一级特黄妇女高潮| 欧美日韩中字| 日本精品一区二区| 亚洲a级精品| 国内外成人免费视频| 伊人久久亚洲| yy111111少妇影院日韩夜片 | 精品国产乱码久久久久久蜜柚| 成人网av.com/| 91精品久久久久久久久久久久久| av有声小说一区二区三区| 秋霞午夜一区二区| 原纱央莉成人av片| 欧美性在线观看| 亚洲天堂导航| 欧美一级片在线播放| 在线最新版中文在线| 国产69久久精品成人| 九色porny丨入口在线| 69影院欧美专区视频| zzzwww在线看片免费| 国语自产在线不卡| 超碰资源在线| 7m第一福利500精品视频| 欧美xxxhd| 国产精品白嫩美女在线观看| 成年美女黄网站色大片不卡| 日本午夜在线亚洲.国产| 网友自拍亚洲| 国产噜噜噜噜噜久久久久久久久 | 在线成人免费视频| 国产剧情精品在线| 日韩欧美久久久| 手机看片一区二区| 精品视频久久久| 国产系列在线观看| 日韩中文字幕欧美| a级网站在线播放| 久久久久久久久国产| 鲁鲁在线中文| 国产精品成人va在线观看| 麻豆久久久久| 国产精品免费一区二区三区观看| 天海翼亚洲一区二区三区| 色99中文字幕| 你懂的国产精品| 青青青免费在线| 日韩综合在线视频| 网站一区二区三区| 国产福利不卡视频| avtt香蕉久久| 中文乱码免费一区二区| 久久成人国产精品入口| 色综合天天综合色综合av | 亚洲欧美综合精品久久成人| 爱久久·www| 欧美日韩成人在线播放| 三级中文字幕在线观看| 成人黄色av网站| 国产欧美啪啪| 亚洲精品一卡二卡三卡四卡| 欧美在线黄色| aⅴ在线免费观看| 激情综合色综合久久综合| 三叶草欧洲码在线| 亚洲人成在线播放网站岛国| 国产精品久久久久久久久久久久久久久久久 | 国产精品久久久久91| 136国产福利精品导航网址应用| 欧美精品一区在线发布| 综合五月婷婷| 免费日韩中文字幕| 懂色av一区二区三区免费看| 97在线观看免费视频| 亚洲午夜影视影院在线观看| 久久久999久久久| 亚洲国产精品女人久久久| 在线观看免费黄色| 日本视频久久久| silk一区二区三区精品视频| 亚洲人一区二区| 久久精品一区二区三区中文字幕| 国产精品无码自拍| 国产精品久久午夜夜伦鲁鲁| 国产乱国产乱老熟| 精品国产人成亚洲区| 黄网站在线播放| 国产精品高潮呻吟久久av野狼| 欧美aaaaa级| 免费看日本黄色| 精品在线播放免费| www.99热| 色国产综合视频| 少妇一区二区三区四区| 九九热r在线视频精品| 福利一区二区免费视频| 欧美一区二区综合| 国产一区二区你懂的| 欧美激情一区二区三区p站| 亚洲色图都市小说| 中文字幕有码视频| 一个色综合导航| 日本成人伦理电影| 日本一区二区三不卡| 国产欧美短视频| 最新日本中文字幕| 一区二区三区不卡视频在线观看 | 亚洲欧美一区二区三区在线| 国产99re66在线视频| 91精品国产一区二区三区动漫| 97久久视频| 999在线精品视频| 国产精品国产馆在线真实露脸| 国产午夜无码视频在线观看| 亚洲欧美www| 日韩电影av| 日本成人看片网址| 日韩经典中文字幕一区| 熟女俱乐部一区二区视频在线| 一本久道中文字幕精品亚洲嫩| 天堂视频中文在线| 51色欧美片视频在线观看| 日韩一级电影| 欧美视频第一区| 国产欧美日韩在线观看| 在线观看黄色网| 久久久极品av| julia中文字幕一区二区99在线| av日韩一区二区三区| 91视视频在线观看入口直接观看www | 91精品久久久久久久久久久久久久| 日韩大片在线| 91 视频免费观看| 一区二区成人在线| 色哟哟中文字幕| 日韩av手机在线看| 欧美性感美女一区二区| 中文字幕第17页| 一区av在线播放| 偷拍自拍在线视频| 国产精品久久久久久av福利软件 | 日韩性xxxx爱| 秋霞一区二区三区| 欧美 日韩 国产 高清| 国产亚洲自拍一区| 国产乱码久久久久| 久久久噜噜噜久久中文字免| 亚洲欧洲av| 亚洲怡红院在线| 亚洲一区二区三区四区在线| 日本人妖在线| 成人网页在线免费观看| 亚洲高清毛片| 亚洲一区二区三区日韩| 欧美剧情片在线观看| av电影在线免费| 天天综合色天天综合色hd| 国产乱子轮精品视频| 九九九在线观看| 免费av一区二区| 在线看成人短视频| 中文字幕一二三区| 欧洲精品在线观看| 欧美韩日亚洲| 日本精品一区二区| 丁香激情综合五月| 中文在线a天堂| 久久久久久久亚洲精品| 日韩中文欧美| 最近日本中文字幕| 在线播放欧美女士性生活| 国产剧情av在线播放| 日本xxx免费| 久久精品人人做人人综合| 国内爆初菊对白视频|