精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

通義實驗室大火的 WebAgent 續作:全開源模型方案超過GPT4.1 , 收獲開源SOTA

人工智能 新聞
WebShaper 補足了做 GAIA、Browsecomp 上缺少高質量訓練數據的問題,通義實驗室開源了高質量 QA 數據!

WebAgent 續作《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中,作者們首次提出了對 information-seeking(IS)任務的形式化建模 并基于該建模設計了 IS 任務訓練數據合成方法,并用全開源模型方案取得了 GAIA 評測最高 60.1 分的 SOTA 表現。

WebShaper 補足了做 GAIA、Browsecomp 上缺少高質量訓練數據的問題,通義實驗室開源了高質量 QA 數據!

WebShaper 體現了通義實驗室對 IS 任務的認知從前期的啟發式理解到形式化定義的深化。

圖片

  • GitHub 鏈接:https://github.com/Alibaba-NLP/WebAgent
  • huggingface 鏈接:https://huggingface.co/datasets/Alibaba-NLP/WebShaper
  • model scope 鏈接:https://modelscope.cn/datasets/iic/WebShaper

圖片

圖表 1:WebShaper 在 GAIA 上取得開源方案 SOTA。

WebShaper —— 合成數據范式的轉變

在大模型時代,「信息檢索(Information Seeking, IS)」早已不是簡單的 「搜索 + 回答」 那么簡單,而是 AI 智能體(Agent)能力的重要基石。無論是 OpenAI 的 Deep Research、Google 的 Gemini,還是國內的 Doubao、Kimi,它們都把 「能不能上網找信息」 當作核心競爭力。

系統性地構造高質量的信息檢索訓練數據成為激發智能體信息檢索能力的關鍵,同時也是瓶頸。當前主流方法依賴 「信息驅動」 的合成范式 —— 先通過網絡檢索構建知識圖譜,再由大模型生成問答對(如 WebDancer、WebWalker 等方案)。這種模式存在兩大缺陷:知識結構與推理邏輯的不一致性,以及預檢索內容的局限導致的任務類型、激發能力和知識覆蓋有限。

圖片

圖表 2:WebShaper 從 「信息驅動」到 「形式化驅動」 的范式轉變。

WebShaper 系統開創性提出 「形式化驅動」 新范式,通過數學建模 IS 任務,并基于該形式化,檢索信息,合成訓練數據。形式化驅動的優點包括:

1. 全域任務覆蓋 :基于形式化框架的系統探索,突破預檢索數據邊界,實現覆蓋更廣任務、能力、知識的數據生成。

2. 精準結構控制 :通過形式化建模,可精確調控推理復雜度與邏輯結構。

3. 結構語義對齊 :任務形式化使信息結構和推理結構一致,減少數據合成中產生的錯誤。

Information Seeking 形式化建模

圖片

圖表 3: 形式化建模

WebShaper 首先提出基于集合論的 IS 任務形式化模型。

該模型包含核心概念「知識投影(Knowledge Projection)」,他是一個包含實體的集合:

  • 每個 IS 任務都由 KP 的 R - 并集(R-Union)、交集(Intersection)、遞歸操作構成,能夠精準控制推理路徑和任務復雜度;
  • 每個 IS 任務旨在確定一個復雜的由 KP 組合而成的目標集合 T 中包含的實體。

該形式化建模讓 WebShaper 不再依賴自然語言理解的歧義,而是可控、可解釋、可擴展的數據合成方案。

智能體式擴展合成:讓 Agent 自己 「寫題」

為了與形式化建模保持一致,WebShaper 整個流程開始于預先構建且形式化的基礎種子任務,然后在形式化的驅動下,將種子問題多步擴展為最終的合成數據。此過程采用專用的代理擴展器 (Expander) 模塊,旨在通過關鍵過程 (KP) 表征來解釋任務需求。在每個擴展階段,系統都會實現逐層擴展機制,以最小化冗余,同時通過控制復雜度進程來防止推理捷徑。

種子任務構建

為了構建種子任務,作者下載了全部 WikiPedia,并在詞條中隨機游走檢索信息,合成基礎的種子 IS 任務。

KP 表示

IS 任務形式化模型是復雜度的,其中包含大量的交、R - 并和遞歸操作。為了在 Expander 中表示和使用該模型,作者提出了一種 KP 表示。其中通過引入 「變量」 和 「常量」,以及 R - 并的可交換性質,表示了 IS 形式化模型。

如,將如下的問題:

「Which player of a team in the 2004-05 season, who was born in 90s? This team is founded in 1966 and is an East German football team.」

表示為:

圖片

圖表 4 :形式化表示。

逐層擴展結構

數據擴展的策略是數據合成的關鍵。之前的方法在我們的形式化模型中將得到下圖中的 Random Structure 和 Sequential Structure:

圖片

圖表 5 :擴展策略對比。

這樣的結構存在兩個問題:

  • 冗余性: 如上圖中的 Random Structure 所示,存在一些已知常量與其他已知常量相聯系。在這種情況下,諸如 「柏林迪納摩是一家位于柏林的足球俱樂部」這樣的句子會存在于問題中。然而,這并沒有增加任務解決的推理鏈。
  • 推理捷徑: 如上圖中的 Sequential Structure 所示,存在一個將常量直接連接到目標的推理鏈條。如果發生這種情況,模型可能會通過僅推理較近的常量而忽略較深的序列來猜測答案。

為此,作者提出如上圖所示的逐層結構,每次擴展都選擇葉結點常量進行擴展,有效地解決了上述的兩個問題。

擴展智能體

具體擴展是由 Expander 智能體負責執行,他接受當前問題的形式化表示:

  • 根據圖結構層次遍歷找到可擴展常量節點;
  • 調用搜索、網頁摘要、驗證等工具;
  • 自動生成形式化任務、并進行答案驗證和復雜度過濾。

這一步,使得我們不僅能構建覆蓋度廣的任務,更能確保任務正確性和推理鏈條的嚴謹性,大幅減少錯誤傳播。

Agent 訓練

基于形式化生成的高質量任務和完整的行為軌跡,作者使用監督微調(SFT)+ GRPO 強化學習策略來訓練 Agent。WebShaper 最終得到 5k 的訓練軌跡。

訓練后,模型在 GAIA 基準任務中獲得:

  • 60.1 分,超越所有開源方案
  • 閉源模型 GPT4.1 只有 40.7 分、Claude Sonnet4 58.2 分、O4 mini 66.99

我們在全使用開源模型方案下拉近了用最強閉源模型 o4 mini 的差距,大幅領先第二名的開源方案。

圖片

圖表 6 :與最新基線方法的對比。

進一步分析

論文中,作者還進一步分析了數據和訓練模型,發現:

1. WebShaper 數據領域覆蓋充分。

2. 在 WebShaper 數據上,通過 RL 訓練能大幅激發模型的 IS 能力。

3. 消融實驗驗證了形式化建模和逐層擴展策略的有效性。

4. 求解 WebShaper 任務,相比于基線數據要求更多的智能體 action。

為什么這件事重要?

  • 任務形式化 = WebShaper 是基于形式化任務合成數據的開端。該思想可以擴展于相比 IS 更為復雜的任務。
  • 數據質量 = Agent 能力上限。好的智能體,先要有好的訓練任務。
  • Agentic 數據合成 = 智能體數據構建需要結合推理和信息檢索,使用 agent 合成數據可以大幅減少中間過程開銷和誤差傳遞。
  • 開源共享 = 社區生態繁榮。我們相信,用最開放的方式推動最前沿的研究,是 AI 發展的正路。

用開源數據 + 模型做到 GAIA 60 分,你也可以。

現在就來試試:https://github.com/Alibaba-NLP/WebAgent

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-02 12:09:33

2025-08-26 09:08:00

2025-09-18 09:56:47

2025-07-22 10:45:55

2025-05-23 09:03:00

2019-01-31 09:00:00

開源實驗室管理系統

2012-09-28 16:25:50

COSUGOpenStackCOSCL

2020-01-14 11:28:43

IBM開源SysFlow

2025-10-13 14:00:24

GPT-6GPT4.1大模型

2025-06-11 09:19:46

2024-11-20 09:38:40

2025-07-08 08:53:00

2015-11-12 13:11:17

TensorFlow人工智能系統谷歌

2013-03-28 10:08:49

UbuntuCCN開源軟件

2023-10-17 12:33:27

AI模型

2022-01-10 09:47:34

5G運營商電信

2021-08-04 09:48:05

數字化

2025-11-21 12:04:58

2025-11-20 08:47:00

AI開源智能體

2024-01-19 12:51:00

AI數據
點贊
收藏

51CTO技術棧公眾號

亚洲免费在线精品一区| 国产91对白在线播放| 熟妇无码乱子成人精品| 爱看av在线入口| 97久久精品人人做人人爽50路| 91精品国产99久久久久久| www在线观看免费视频| 国产95亚洲| 欧美性猛xxx| 在线观看成人免费| 日本私人网站在线观看| 国内精品在线播放| 久久久国产一区| 制服丝袜在线第一页| 国语自产精品视频在线看抢先版结局| 一区二区三区欧美亚洲| 日产国产精品精品a∨| 亚洲av无码片一区二区三区| 日韩综合小视频| 久久久亚洲欧洲日产国码aⅴ| 亚洲一级片在线播放| 国产精品nxnn| 欧美一区二区三区视频免费 | 中文字幕 欧美 日韩| 中文字幕日本一区二区| 亚洲一二三四在线| 二级片在线观看| 黄色免费在线播放| 97se亚洲国产综合自在线| 亚洲综合最新在线| 一区二区视频免费| 蜜桃av综合| 久久免费少妇高潮久久精品99| 秋霞欧美一区二区三区视频免费 | 国产在线精品一区二区夜色| 国产成人精品免高潮费视频| 91看片在线播放| 黄色亚洲在线| 久久99国产精品自在自在app | 人人九九精品| 99re这里只有精品6| 999热视频| 国产又粗又大又爽| 久久精品国产99久久6| 国产成人av在线播放| www欧美在线| av成人国产| 97人洗澡人人免费公开视频碰碰碰| 亚洲成人生活片| 91精品秘密在线观看| 日韩中文字幕在线| 久草手机视频在线观看| 婷婷综合五月| 蜜臀久久99精品久久久久久宅男| 国产性生活大片| 欧美一区二区三区另类| 美女福利视频一区| 九九热精品在线观看| 国产综合婷婷| 69av在线视频| 波多野结衣小视频| 美女www一区二区| 成人h视频在线观看播放| 国产精品久久影视| 国产剧情一区二区| 国产精品一区二区你懂得| 日韩在线一区二区三区四区| 91偷拍与自偷拍精品| 久久久亚洲综合网站| 韩国三级在线观看久| 欧美激情在线一区二区| 中文字幕欧美日韩一区二区三区| 99在线视频观看| 亚洲一区二区不卡免费| 日韩中文字幕在线视频观看| 日本免费一区二区三区四区| 欧美探花视频资源| 男女污污视频网站| 懂色av一区二区| 国产一区二区成人| 成人涩涩小片视频日本| 影音先锋久久久| 国产激情视频一区| 国产日韩欧美一区二区东京热 | 色天使在线视频| 精品美女在线视频| 欧美成人中文字幕在线| 久久久国产精品成人免费| 日本最新不卡在线| 91免费版黄色| 久久久久久久久亚洲精品| 日本一区二区在线不卡| 国产一区 在线播放| 伊伊综合在线| 欧美一区二区三区精品| 91精品小视频| 2023国产精品久久久精品双| 韩国美女主播一区| 一级片免费观看视频| 激情小视频在线| 黄瓜视频成人app免费| 欧美少妇xxx| 欧美一级片在线免费观看| 欧美猛男同性videos| 久热99视频在线观看| 特级做a爱片免费69| 寂寞少妇一区二区三区| 免费看成人片| 在线观看av免费| 欧美色爱综合网| 艳妇乳肉亭妇荡乳av| 66久久国产| 国产98色在线| 黄频网站在线观看| 亚洲欧美日韩在线播放| 动漫av免费观看| 国产精品视频3p| 不卡中文字幕av| 亚洲国产无线乱码在线观看| av动漫一区二区| xxxxxx在线观看| 精品久久99| 亚洲天堂一区二区三区| 国产成人无码精品| 国产成人啪免费观看软件| 日韩一区不卡| 伊人久久av| 欧美精品一区二区三区在线| 动漫性做爰视频| 蜜桃久久久久久| 日韩电影大全在线观看| 日韩伦理在线| 精品久久国产字幕高潮| 青青草在线观看视频| 久久99国产精品久久99| 色播五月综合| 电影在线观看一区二区| 亚洲欧美中文在线视频| 日产精品久久久| 99久久伊人网影院| 日韩视频免费播放| 成人资源在线播放| 久久久视频在线| 性猛交xxxx乱大交孕妇印度| 一区二区三区中文字幕电影 | 99久久精品一区二区成人| 亚洲精品一区二三区不卡| 97久久久久久久| 久久一区二区三区四区| 精品99在线视频| 妖精视频一区二区三区| 国产91色在线| av色图一区| 7777精品伊人久久久大香线蕉最新版| 小嫩苞一区二区三区| 加勒比av一区二区| 伊人再见免费在线观看高清版 | 国产资源在线观看入口av| 欧美一区二区日韩一区二区| 波多野结衣爱爱视频| 懂色av一区二区夜夜嗨| 男人日女人视频网站| 欧美一级色片| 国产精品成人v| 在线观看黄av| 日韩精品在线网站| 国产一级精品视频| 欧美国产精品一区二区三区| 欧美激情第3页| 欧美99在线视频观看| 国内精品视频在线播放| 国产综合色区在线观看| 日韩中文字幕在线视频| 性网爆门事件集合av| 亚洲高清中文字幕| 中文字幕在线看高清电影| 麻豆一区二区三区| 波多野结衣与黑人| 一区二区三区韩国免费中文网站| 国产精品老女人精品视频| а天堂中文在线官网| 亚洲激情视频在线播放| 国产99久久久久久免费看| 亚洲视频 欧洲视频| 精品1卡二卡三卡四卡老狼| 天堂久久久久va久久久久| 一区中文字幕在线观看| 露出调教综合另类| 国产欧美韩国高清| 国产乱码在线| 中文字幕精品久久| 黄色小视频免费观看| 91黄视频在线观看| 久久久久久国产精品免费播放| 91免费国产在线| 日本特黄在线观看| 久久九九国产| 18黄暴禁片在线观看| 亚洲区小说区图片区qvod按摩 | 国产精品第12页| 中文一区一区三区免费在线观看| 久久综合入口| 亚洲精品a区| 国产精品盗摄久久久| 超清av在线| 俺去了亚洲欧美日韩| 日本中文字幕一区二区有码在线| 欧美一区二区播放| 337p粉嫩色噜噜噜大肥臀| 亚洲国产一二三| 婷婷激情四射网| 国产三级精品三级在线专区| 久久久久久婷婷| 国产精品99久久久久久似苏梦涵| 成年人网站大全| 99av国产精品欲麻豆| 老司机午夜免费福利视频| 精品国产精品久久一区免费式| 国产精品一区二区三区免费观看| 亚洲高清国产拍精品26u| 欧美中文在线免费| 国产白浆在线免费观看| 色综合老司机第九色激情| 在线播放日本| 色老头一区二区三区在线观看| 青春草在线观看 | 91福利小视频| 国产精品第5页| 欧美日韩一二三四五区| 国产精品99re| 亚洲一区免费视频| 青青草成人免费| 亚洲日本va在线观看| 亚洲女同二女同志奶水| 欧美激情一区二区三区不卡| 中文字幕av网址| 不卡的av电影在线观看| 精品人妻一区二区免费| 成人性生交大片免费看中文网站| 亚洲三级在线视频| 国产成人午夜精品5599| 91福利视频免费观看| 国产精品88av| 波多野结衣电影免费观看| 国产精品影视在线| 日韩精品――色哟哟| 国产成人aaa| 69亚洲乱人伦| 99精品在线观看视频| 在线观看国产网站| 26uuu成人网一区二区三区| 搡老熟女老女人一区二区| 久久综合久久鬼色| 色欲AV无码精品一区二区久久| 国产日韩三级在线| 国产在线免费av| 亚洲欧洲精品一区二区三区 | 色老头久久综合| 波多野结衣在线观看一区| 欧美无砖砖区免费| 91中文字幕在线播放| 欧美一区二区免费观在线| 精品国产伦一区二区三区| 欧美tickling挠脚心丨vk| 欧美 日韩 中文字幕| 日韩国产在线播放| 国产69久久| 久久精品国产久精国产一老狼| 亚洲制服国产| 97在线视频一区| 国产精品毛片久久久久久久久久99999999 | 欧美图片第一页| 国产精品久久综合| 欧美精品99久久久| 天涯成人国产亚洲精品一区av| 在线精品免费视| 欧美放荡的少妇| 国精品人妻无码一区二区三区喝尿| 日韩福利在线播放| 日本高清在线观看wwwww色| 国内精品美女av在线播放| 中文字幕乱码在线播放| 91精品久久久久久久久中文字幕| www.久久东京| 日本黑人久久| 韩日成人在线| 网站一区二区三区| 成人h动漫精品| 欧美日韩国产黄色| 亚洲综合色噜噜狠狠| 精品不卡一区二区| 日韩三级av在线播放| 国产三级在线看| 久久久中文字幕| 激情亚洲小说| 欧美日韩亚洲免费| 午夜日韩在线| www.99r| 91视频一区二区三区| 久久精品视频免费在线观看| 一本色道久久综合亚洲精品按摩| av网站在线观看免费| 国产一区二区三区在线看| 成人爽a毛片免费啪啪动漫| 国产日韩欧美电影在线观看| 欧美1区2区3区4区| 国产又粗又大又爽的视频| 肉色丝袜一区二区| 在线天堂www在线国语对白| 中文字幕五月欧美| 无码人妻aⅴ一区二区三区有奶水| 日韩免费视频一区二区| av二区在线| 日本精品视频在线观看| 北条麻妃一区二区三区在线| 三年中文高清在线观看第6集| 久久婷婷麻豆| 人妻少妇精品视频一区二区三区| 又紧又大又爽精品一区二区| 91激情在线观看| 永久免费看mv网站入口亚洲| 原纱央莉成人av片| 国产欧美欧洲| 黄色精品一区| 免费在线观看日韩av| 亚洲免费av在线| 国产又粗又猛又黄又爽无遮挡| 亚洲天堂av在线播放| 五月天av在线| 久久精品女人的天堂av| 在线精品在线| 国产精品久久久久久亚洲色| 一区二区三区波多野结衣在线观看| 91影院在线播放| 久久精品一偷一偷国产| 外国成人毛片| 中文字幕久久一区| 精品一区二区精品| 视频国产一区二区| 在线不卡免费av| 免费在线看黄色| 91理论片午午论夜理片久久| 欧美高清视频在线观看mv| 五月婷婷丁香综合网| 国产精品人成在线观看免费| 中文字幕人妻互换av久久 | 久久久久网址| 久久免费国产| 免费看黄色三级| 欧美日韩三级视频| 麻豆免费在线观看| 92看片淫黄大片欧美看国产片| 亚洲精品极品少妇16p| 免费观看黄网站| 亚洲高清久久久| 欧洲综合视频| 国产精品日韩专区| 久久久久久久久久久9不雅视频 | 国产美女网站在线观看| 91香蕉国产在线观看软件| 国产一级片免费在线观看| 中文字幕九色91在线| 亚洲91在线| 日韩国产小视频| 26uuu国产一区二区三区 | 日韩欧美二区三区| 欧美久久天堂| 日韩视频精品| 国产激情一区二区三区| 国产午夜小视频| 国产亚洲欧美日韩美女| 91精品视频一区二区| cao在线观看| 国产日韩av一区二区| 国产免费av观看| 97在线免费观看视频| 成人羞羞视频在线看网址| 亚洲综合中文网| 狠狠躁18三区二区一区| 日本成人网址| 黑人巨大精品欧美一区二区小视频 | 欧美激情亚洲精品| 伊人久久大香线蕉av不卡| 亚洲成人福利在线| 亚洲妇女屁股眼交7| 国产高清免费av在线| 99久久一区三区四区免费| 老妇喷水一区二区三区| 欧美一区二区三区爽爽爽| 亚洲男人天堂2024| 国产 日韩 欧美| 国产视频在线视频| 亚洲成人自拍偷拍| 男人资源在线播放| 麻豆91av| 成人午夜碰碰视频| 夜夜嗨aⅴ一区二区三区| 97色在线视频观看| 亚洲色图88| 天天舔天天操天天干|