搭建跨模態(tài)檢索系統(tǒng)時,有兩個難題:一是處理圖文混合候選集時,token數(shù)量爆炸導(dǎo)致GPU直接內(nèi)存溢出;二是用RL訓(xùn)練模型時,要么收斂不了,要么推理過程漏洞百出,檢索準(zhǔn)確率始終上不去。直到看到這篇NeurIPS2025的RetrvR1論文,才發(fā)現(xiàn)原來不用復(fù)雜架構(gòu),只要針對性解決“信息冗余”和“訓(xùn)練不穩(wěn)定”兩個核心痛點(diǎn),就能讓多模態(tài)檢索的準(zhǔn)確率和效率同時突破瓶頸——這篇研究給出了新的技術(shù)方案,更提供了“推理驅(qū)動檢索”的全新思...
3天前 149瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在做環(huán)境交互AgentRL訓(xùn)練時,很容易陷入困境:為了跑通WebArena的實(shí)驗(yàn),每天的算力費(fèi)用就過千,還因?yàn)榄h(huán)境重置機(jī)制不可靠,近30%的軌跡數(shù)據(jù)無效。更頭疼的是,真實(shí)環(huán)境的獎勵信號又稀疏又嘈雜,訓(xùn)練了半個月,Agent的成功率還沒超過10%。直到看到Meta和芝加哥大學(xué)聯(lián)合推出的DreamGym框架,才發(fā)現(xiàn)原來RL訓(xùn)練可以不用死磕真實(shí)環(huán)境——它用合成經(jīng)驗(yàn)把訓(xùn)練成本壓到傳統(tǒng)方案的13,還能在非RL就緒環(huán)境中實(shí)現(xiàn)30%+的性能突破。如果你也...
2025-11-12 00:17:14 412瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
我們在做長周期科研型Agent時,曾連續(xù)卡殼兩個核心問題:一是標(biāo)注多步推理軌跡的成本高到離譜——為了訓(xùn)練模型“分解問題→搜文獻(xiàn)→驗(yàn)證結(jié)論”的流程,標(biāo)注千條高質(zhì)量科研級軌跡花了近萬元,還達(dá)不到訓(xùn)練所需的規(guī)模;二是RL訓(xùn)練后期總出現(xiàn)“策略崩潰”——明明前期模型能正常調(diào)用工具,越訓(xùn)反而越容易陷入“重復(fù)搜同一關(guān)鍵詞”的死循環(huán)。直到看到阿里TongyiLab發(fā)布的TongyiDeepResearch技術(shù)報告,才發(fā)現(xiàn)他們不僅用全自動化方案...
2025-11-04 07:35:52 2419瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
隨著智能手機(jī)攝影能力的不斷提升和存儲成本的持續(xù)下降,用戶積累的照片和視頻數(shù)量呈現(xiàn)爆發(fā)式增長。如何在海量影像數(shù)據(jù)中高效組織、智能檢索并創(chuàng)造有意義的回憶體驗(yàn),成為各大科技公司競相布局的技術(shù)高地。相冊智能回憶功能作為這一技術(shù)浪潮的核心產(chǎn)物,正在重新定義人們與數(shù)字記憶互動的方式。主流手機(jī)廠商和平臺在相冊回憶功能上的技術(shù)競爭日趨激烈。GooglePhotos推出了全新的AI驅(qū)動編輯器和更智能的分享功能;蘋果在iOS18中為...
2025-11-04 07:35:29 1035瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
你有沒有過這種經(jīng)歷:手機(jī)更新個系統(tǒng),之前會用的功能突然找不到北?連我們?nèi)祟悓W(xué)個新APP都要摸索半天,更別說讓AI在陌生環(huán)境里“即插即用”了。最近我在ICLR2025的論文里發(fā)現(xiàn)一個叫REGENT的AI智能體,不用練幾百萬次,也不用裝個“超級大腦”,就靠“翻筆記”的本事,在機(jī)器人操控、游戲通關(guān)這些任務(wù)里,比那些參數(shù)多3倍、數(shù)據(jù)多10倍的大模型還厲害。今天我們聊聊這個“會抄作業(yè)還會舉一反三”的AI到底怎么回事。先吐槽下:現(xiàn)...
2025-11-04 07:34:48 2061瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
搜索“總結(jié)2023年NeurIPS、ICML、ICLR三大ML頂會的最佳論文,還要分析熱門領(lǐng)域趨勢”,搜了十幾頁結(jié)果:有的只說某個會議論文分析,有的提了最佳論文但是沒有趨勢,零散得像沒串起來的珠子;讓AI回答,它倒是說得頭頭是道,結(jié)果一半細(xì)節(jié)查不到來源,疑似“瞎編”;更糟的是,好不容易攢了一堆資料,AI又彈出“內(nèi)容太多,超出我的記憶容量”——這是不是你查復(fù)雜信息時的日常崩潰?最近我在讀ICLR2025的一篇論文時,突然眼前一亮...
2025-11-04 07:30:53 871瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
或許你已是一名AI應(yīng)用提示工程高手,但隨著對話的推進(jìn),你的聊天機(jī)器人常常會忘記你最初且最重要的指令內(nèi)容,你的代碼助手會丟失項(xiàng)目架構(gòu)的線索,而你的檢索增強(qiáng)生成(RAG)工具無法在復(fù)雜文檔與不同領(lǐng)域間建立信息關(guān)聯(lián)。隨著AI應(yīng)用場景日益復(fù)雜,編寫精妙的提示詞只是更大挑戰(zhàn)中的一小部分——這個挑戰(zhàn)就是上下文工程。在本指南中,我將闡釋什么是上下文工程、它如何運(yùn)作、何時應(yīng)替代常規(guī)提示工程使用它,以及能讓AI系統(tǒng)更智能...
2025-10-22 07:34:54 1057瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
當(dāng)你看到機(jī)器人能精準(zhǔn)識別物體并完成復(fù)雜操作,AI能根據(jù)文字描述生成幾乎以假亂真的圖像時,是否好奇背后的技術(shù)如何實(shí)現(xiàn)?其實(shí),這背后離不開強(qiáng)化學(xué)習(xí)與視覺智能的深度融合。但視覺信息的復(fù)雜性、“獎勵”設(shè)計(jì)的難題、長時程任務(wù)的穩(wěn)定性挑戰(zhàn),一直讓研究者頭疼。而新加坡國立大學(xué)、浙江大學(xué)、香港中文大學(xué)的聯(lián)合團(tuán)隊(duì)最新發(fā)布的《ReinforcementLearninginVision:ASurvey》,不僅梳理了200+研究成果,還拆解了四大核心領(lǐng)域的關(guān)鍵...
2025-10-22 07:34:38 1933瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
當(dāng)你看到一張立方體展開圖時,只需幾秒的心理模擬(mentalsimulation)就能判斷它能否折疊成完整立方體;面對三個點(diǎn)電荷的受力分析,隨手畫個受力圖就能理清力的方向與大小關(guān)系——這些人類與生俱來的視覺推理能力,卻曾是多模態(tài)大模型的“致命短板”。GPT4o曾在立方體折疊推理中混淆相鄰面與對面的關(guān)系,在點(diǎn)電荷受力計(jì)算中錯判力的方向,核心問題在于:如何讓智能體像人類一樣,將“看見”與“思考”真正結(jié)合?我們解讀最新技...
2025-10-11 06:37:58 4284瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
你有沒有過這樣的經(jīng)歷?讓手機(jī)助手幫你在購物APP里搜個耳機(jī),它卻反復(fù)點(diǎn)錯廣告彈窗;想讓智能音箱聯(lián)動燈光,它要么沒反應(yīng),要么把空調(diào)也打開了。明明這些AI能看懂圖片、聽懂文字,怎么一到“動手做事”就掉鏈子?我們解讀最新技術(shù),文末有相關(guān)信息。最近在研究視覺語言模型(VLM)做智能體(Agent)的論文時,發(fā)現(xiàn)了一個讓我眼前一亮的解法——來自南洋理工和阿里巴巴團(tuán)隊(duì)發(fā)表在ICML2025的新方法CoSo。它就像給AI裝了個“智能導(dǎo)...
2025-09-25 06:54:36 5203瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
當(dāng)你結(jié)束一天的工作,期待AI能自主整理雜亂的桌面、按照需求烹飪簡單的餐食,甚至協(xié)助完成家電維修時,是否曾疑惑:為何現(xiàn)有AI多局限于屏幕交互,難以真正“走進(jìn)”物理世界?這一問題的核心,指向了AI領(lǐng)域的關(guān)鍵方向——具身智能體(EmbodiedAIAgent)。Meta超級智能實(shí)驗(yàn)室的JianweiYang團(tuán)隊(duì)CVPR2025發(fā)布的教程系統(tǒng)梳理了多模態(tài)具身智能體從“感知環(huán)境”到“邏輯思考”再到“自主行動”的技術(shù)路徑,為我們揭示了多模態(tài)具身智能...
2025-09-25 06:51:29 6209瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
隨著人工智能尤其是大模型技術(shù)的快速發(fā)展,基于大型語言模型(LLM)的智能體(Agent)正成為研究和應(yīng)用的新焦點(diǎn)。NeurIPS2025會議收錄了大量圍繞智能體架構(gòu)設(shè)計(jì)、多智能體協(xié)作、具身推理、安全對齊等方向的前沿工作。這些研究不僅在理論上推動了對智能體行為與認(rèn)知的建模,也在實(shí)際應(yīng)用中展現(xiàn)出廣泛潛力。本文將系統(tǒng)梳理會議中具有代表性的智能體相關(guān)論文,分類綜述其核心貢獻(xiàn),并總結(jié)關(guān)鍵技術(shù)趨勢。一、基礎(chǔ)架構(gòu)與優(yōu)化方法該類...
2025-09-25 06:45:53 7850瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
你是否曾想象過,某天你的私人AI助理不僅能幫你規(guī)劃一整天的行程,還能替你處理那些繁瑣的郵件往來,甚至幫你砍價購物,而你只需要說一句“搞定它”?等等,這聽起來是不是有點(diǎn)像科幻電影?別急,我最近在研讀一份來自紅杉資本的內(nèi)部資料時發(fā)現(xiàn),這樣的未來可能比我們想象的要近得多,而且,它所蘊(yùn)含的經(jīng)濟(jì)潛力,甚至可能比蒸汽機(jī)和流水線帶來的工業(yè)革命還要宏大!這份資料揭示了人工智能正在開啟一場“認(rèn)知革命”,它不僅僅是...
2025-09-15 07:53:08 1690瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
你有沒有過這樣的經(jīng)歷?讓AI幫你寫一篇行業(yè)報告,它倒是很快湊出了幾千字,但里面的數(shù)據(jù)還是2022年的;讓它改,它只會在句子里加幾個“綜上所述”,不會自己去查最新資料;甚至讓它幫你訂一張周末的高鐵票,它能寫出訂票步驟,卻不會真的打開12306操作——這時候你可能會吐槽:AI啥時候能像個“真助理”,主動把事辦明白?最近,牛津大學(xué)、新加坡國立大學(xué)、帝國理工、上海AI實(shí)驗(yàn)室、UCL等機(jī)構(gòu)的研究員們,聯(lián)合發(fā)布了一篇名為《T...
2025-09-14 12:09:59 5107瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
我最近一直在思考一個問題:我們現(xiàn)在看到的那些“智能”AI,比如能寫詩、能畫畫的大語言模型,它們真的很“智能”嗎?它們能不能像我們?nèi)祟愐粯樱嬲卦谖粗澜缰?ldquo;學(xué)習(xí)”和“成長”,而不是僅僅“記住”和“模仿”?這個問題觸及到了人工智能領(lǐng)域的“圣杯”——實(shí)現(xiàn)真正的強(qiáng)人工智能。我們渴望的,不是一個知道一切的百科全書,而是一個能自主探索、自主學(xué)習(xí)、自我提升的“心智”。最近,當(dāng)我深入研讀強(qiáng)化學(xué)習(xí)之父RichSutto...
2025-09-02 06:38:34 1680瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
最近我在整理大模型數(shù)學(xué)推理的實(shí)驗(yàn)數(shù)據(jù)時,發(fā)現(xiàn)一個特別“離譜”的現(xiàn)象:為了讓AI解對一道AIME(美國數(shù)學(xué)邀請賽,難度接近奧數(shù))題目,我們得讓它生成512條完整的解題思路,最后再用“少數(shù)服從多數(shù)”的方式投票選答案。這就像請512個學(xué)生做同一道題,不管有人寫得顛三倒四、有人明顯算錯,你都得把所有答卷看完——既浪費(fèi)時間,又耗“筆墨”(對應(yīng)AI的token生成量),最后正確率還卡在97%上不去。直到讀到MetaAI和UCSD團(tuán)隊(duì)剛發(fā)...
2025-09-02 06:37:41 1626瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
當(dāng)671B參數(shù)的DeepSeekR1仍被視為數(shù)學(xué)推理領(lǐng)域的“重量級選手”時,一款僅14B參數(shù)的模型卻以更短的推理路徑實(shí)現(xiàn)了性能超越——微軟研究院推出的rStar2智能體(rStar2Agent),通過智能體強(qiáng)化學(xué)習(xí)(AgenticReinforcementLearning)技術(shù),讓小模型擺脫了“靠長度堆性能”的傳統(tǒng)路徑,具備了“更聰明思考”的能力。這款模型僅用64張MI300XGPU、510步強(qiáng)化學(xué)習(xí)訓(xùn)練,便在AIME24數(shù)學(xué)競賽中取得80.6%的pass1準(zhǔn)確率,超越OpenAIo3mini、C...
2025-09-02 06:37:23 2752瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
你有沒有過這種體驗(yàn)?第一次學(xué)做番茄炒蛋,媽媽沒說“油熱到冒煙再下蛋”,只在你炒糊時皺眉,炒嫩時點(diǎn)頭;第一次學(xué)騎車,沒人給你列“平衡公式”,摔了幾次后,身體自己就記住了怎么調(diào)整車把。我最近在讀強(qiáng)化學(xué)習(xí)奠基人Barto和Sutton的訪談,突然意識到:原來我們每天都在經(jīng)歷的“試錯學(xué)習(xí)”,正是AlphaGo能打敗世界冠軍、AI能自己摸索出最優(yōu)策略的核心密碼。這篇文章就帶你拆透這個讓機(jī)器學(xué)會“從經(jīng)驗(yàn)中成長”的神奇邏輯——...
2025-08-20 07:18:13 1314瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
當(dāng)機(jī)器人能像人類一樣在復(fù)雜家居環(huán)境中自主整理雜物,當(dāng)智能體可在未知場景中快速學(xué)習(xí)新技能——這些曾經(jīng)的科幻場景,正因大模型與具身智能的結(jié)合逐漸逼近現(xiàn)實(shí)。然而,大模型究竟如何賦予具身智能“思考”與“學(xué)習(xí)”的能力?當(dāng)前研究又面臨哪些阻礙通用智能實(shí)現(xiàn)的瓶頸?這篇綜述將為你揭開謎底。我們解讀最新技術(shù),文末有相關(guān)信息。摘要&解讀具身智能旨在開發(fā)具有物理形態(tài)的智能系統(tǒng),能夠在真實(shí)世界環(huán)境中進(jìn)行感知、決策、行動...
2025-08-20 07:13:07 4716瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
當(dāng)你用手機(jī)問AI"今天天氣如何",或是讓它寫一段工作總結(jié)時,有沒有想過背后發(fā)生了什么?這些看似簡單的交互,其實(shí)是千億級參數(shù)的大模型在高速運(yùn)轉(zhuǎn)——它們就像一個個"超級大腦",但"大腦"越大,消耗的計(jì)算資源就越多。一、你手機(jī)里的AI,可能正在"負(fù)重前行"你可能遇到過這樣的情況:AI回答突然變慢,手機(jī)開始發(fā)燙,甚至有時候還會出現(xiàn)"內(nèi)存不足"的提示。這不是AI"偷懶",而是它的"思考過程"太耗費(fèi)資源了。就像一輛滿載貨物的卡...
2025-08-20 07:00:07 2848瀏覽 0點(diǎn)贊 0回復(fù) 0收藏