LeJEPA——可證明且可擴展的自監督學習新范式「“這可能是LeCun以Meta身份發表的最后一篇論文了。”」「沒錯,這篇論文,介紹了一種自監督學習方法,于11月11日在arXiv提交,是LeCun的最新公開成果。」「也是在這一天,他離職Meta的消息被曝光。」本文將全面解讀MetaFAIR團隊于2025年發布的突破性論文《LeJEPA:ProvableandScalableSelfSupervisedLearningWithouttheHeuristics》。該研究由RandallBalestriero和YannLeCun領銜,...
這篇由上海交通大學和阿里巴巴團隊聯合發表的研究論文《AttentionIlluminatesLLMReasoning:ThePreplanandAnchorRhythmEnablesFineGrainedPolicyOptimization》提出了一種革命性的視角:將注意力機制視為理解大語言模型推理過程的關鍵窗口,而不僅僅是計算的副產品。傳統強化學習方法通常對整個生成序列均勻分配信用,模糊了關鍵推理步驟與常規步驟之間的界限。本研究通過分析注意力動態,揭示了LLM內部存在的"預規劃與錨定節奏"...
在大語言模型(LLM)與強化學習(RL)深度融合的浪潮中,后訓練階段通常采用基于策略梯度的方法,如近端策略優化(PPO),以提升模型的推理能力。然而,傳統PPO采用對稱的actorcritic架構,即critic(價值函數)與actor(策略模型)規模相當,這在LLM尺度下帶來巨大的計算開銷和訓練不穩定問題。近年來,無critic的RLVR(ReinforcementLearningforLLMReasoning)范式逐漸成為主流,例如GRPO(GroupPolicyOptimization)通過平均...
引言:大模型強化學習后訓練的時代挑戰隨著ChatGPT、Claude等大語言模型在推理、數學和代碼生成等復雜任務上展現驚人能力,強化學習后訓練(RLPostTraining)已成為提升模型性能的關鍵環節。然而,傳統的同步訓練架構面臨著嚴峻的資源利用率和可擴展性挑戰。就在2025年初,Meta發布的Llama3RLHF版和Google的Gemma2模型都顯露出在大規模RL訓練時的效率瓶頸。在這一背景下,阿里巴巴團隊提出的ROLLFlash系統代表了重要的技術突破...
2025-11-14 00:08:13 403瀏覽 0點贊 0回復 0收藏
在大語言模型(LLM)與強化學習(RL)深度融合的浪潮中,后訓練階段通常采用基于策略梯度的方法,如近端策略優化(PPO),以提升模型的推理能力。然而,傳統PPO采用對稱的actorcritic架構,即critic(價值函數)與actor(策略模型)規模相當,這在LLM尺度下帶來巨大的計算開銷和訓練不穩定問題。近年來,無critic的RLVR(ReinforcementLearningforLLMReasoning)范式逐漸成為主流,例如GRPO(GroupPolicyOptimization)通過平均...
2025-11-14 00:05:11 259瀏覽 0點贊 0回復 0收藏
2025年,當GPT5在GPQA基準測試中拿下85.4%的成績時,AI研究界卻在思考一個更尖銳的問題:為什么最先進的大模型在處理"19781998年馬爾科獎得主中是否有來自已消失國家的獲獎者"這類需要多步驟推理的問題時,正確率仍不足30%?研究團隊給出了顛覆性答案——動態結構化知識流框架FlowSearch,其在GAIA基準測試中以76.7%的成績超越MiroFlow(74.5%)和GPT5(85.4%)等強基線,徹底改變了AI深度研究的范式。科研痛點:當AI遇上"馬爾...
2025-10-24 00:28:39 3069瀏覽 0點贊 0回復 0收藏
如果你深耕計算機視覺或人工智能領域,或許已經花了數小時研究YOLO(YouOnlyLookOnce,實時目標檢測算法)、FasterRCNN(RegionbasedConvolutionalNeuralNetwork,基于區域的卷積神經網絡)、SSD(SingleShotMultiBoxDetector,單階段多框檢測器)等目標檢測模型。這些模型堪稱“性能強者”,能以驚人的速度和精度生成邊界框(boundingboxes)與類別標簽(classlabels),為從自動駕駛到零售分析的多個領域帶來了變革。得益于深...
2025-10-14 00:13:53 1921瀏覽 0點贊 0回復 0收藏
馬爾可夫思考者:突破大模型推理長度的計算瓶頸最近,強化學習(RL)已成為訓練推理LLMs的有效方法,使其能夠產生長鏈思考(LongCoT)。然而,這種方法面臨著一個嚴峻的挑戰:計算成本隨思考長度呈二次方增長。今天,我們介紹一篇來自Mila、微軟研究院、麥吉爾大學等機構的研究團隊發表的重要論文——《TheMarkovianThinker》,他們提出了一種革命性的方法,成功解決了這一難題。論文標題:TheMarkovianThinker論文地址:https:arxi...
2025-10-14 00:12:59 1733瀏覽 0點贊 0回復 0收藏
圖片在人工智能快速發展的今天,我們經常驚嘆于大型語言模型(LLMs)在推理和工具使用方面的驚人能力。然而,你是否曾有過這樣的經歷:與AI助手交流時,感覺它雖然能回答問題,卻似乎并不真正理解你的需求和偏好?這種"技術能力強大但用戶理解不足"的現象。研究背景:當AI遇上"難以捉摸"的用戶大型語言模型(LLMs)在復雜推理、代碼生成和解決高級數學問題方面已經展現出令人印象深刻的能力。通過工具使用和工具創建,這些模型...
2025-10-14 00:09:28 1347瀏覽 0點贊 0回復 0收藏
在人工智能領域,大型語言模型(LLM)代理正成為解決復雜任務的強大工具。這些代理能夠自主執行復雜任務,通過交互、推理和決策來解決問題,通常還可以訪問外部工具、記憶或環境。從深度研究代理到工具增強執行系統,再到代碼生成代理,LLM代理在復雜科學和工程任務中展現出強大的能力。然而,當前的LLM代理通常面臨一個兩難選擇:要么是僵化的靜態系統,依賴手工制作的反思工作流;要么是計算密集型系統,需要通過梯度更新來微調...
2025-10-14 00:08:20 2394瀏覽 0點贊 0回復 0收藏
在人工智能的快速發展浪潮中,大型語言模型(LLMs)的突破性進展已經點燃了人們對能夠解決復雜現實世界任務的AI代理的濃厚興趣。然而,當前大多數代理系統仍依賴于手動設計的配置,一旦部署便保持靜態,這嚴重限制了它們適應動態變化環境的能力。今天,我們要介紹一篇開創性的綜述論文,它為我們展示了一個全新的研究方向——自我進化AI代理。論文背景與作者團隊這篇題為《AComprehensiveSurveyofSelfEvolvingAIAgents:ANewPara...
2025-09-29 07:27:27 2883瀏覽 0點贊 0回復 0收藏
智能體人工智能的夢想遭遇瓶頸我們正站在計算領域新時代的風口——智能體人工智能(AgenticAI)時代。這個夢想簡單卻意義深遠:大語言模型(LLMs)不僅能響應我們的查詢,還能主動代表我們實現目標。我們設想這樣的智能體:它們能研究復雜主題、規劃精密的旅行行程、調試代碼,并通過與世界的動態多步交互管理我們的數字生活。在過去一年里,強化學習(ReinforcementLearning,RL)一直是推動我們邁向這一未來的核心引擎。通過讓...
2025-09-28 06:50:54 2027瀏覽 0點贊 0回復 0收藏
在人工智能領域,大型語言模型(LLMs)的發展正面臨一個嚴峻挑戰:計算資源的指數級擴展與高質量文本數據的有限增長之間的巨大差距。這一瓶頸正制約著傳統的大模型擴展方法。今天,我們要介紹一篇由騰訊團隊與香港中文大學合作發表的重要論文,他們提出了一種創新的訓練擴展范式——基于預訓練數據的強化學習(ReinforcementLearningonPreTrainingData,簡稱RLPT),為解決這一難題提供了全新思路。在人工智能領域,大型語言模...
2025-09-28 06:49:44 2690瀏覽 0點贊 0回復 0收藏
大語言模型(LLM)已經成為解決復雜問題的重要工具。然而,即使是目前最先進的模型,也面臨著一項根本性挑戰:上下文窗口限制。想象一下,當你要求AI回答一個需要多輪搜索、涉及多個實體和復雜關系的復雜問題時,AI往往會因為"記不住"之前的探索過程而無法給出完整答案。近日,阿里巴巴通義實驗室的研究團隊提出了一項突破性解決方案——ReSum范式,成功破解了這一難題。這項由XixiWu、KuanLi、YidaZhao等研究者共同完成的工作,...
2025-09-28 06:49:30 3029瀏覽 0點贊 0回復 0收藏
谷歌全新人工智能系統將大型語言模型(LLMs)與樹搜索(TreeSearch)技術相結合,實現了專家級科學軟件的自動化創建。通過將研究重構為“可評分任務”,該系統在生物信息學、流行病學和神經科學領域展現出超越人類的性能,預示著加速科學發現的新時代到來。假設你是一名科學家,正凝視著屏幕。你的目標是研究亞馬遜雨林的森林砍伐問題——你已掌握拍字節(PB)級別的衛星數據,但要將這些原始數據轉化為可靠的“森林砍伐檢測工...
2025-09-17 07:36:46 3080瀏覽 0點贊 0回復 0收藏
集群采樣策略優化(SwarmSamplingPolicyOptimization,簡稱SAPO)是一種去中心化的異步強化學習(RL)算法,適用于語言模型(LM)后訓練任務。該算法可在異構計算節點上運行,通過網絡共享軌跡(rollouts)以傳遞學習洞見,避免大規模并行化帶來的瓶頸問題,降低成本,并在實驗中實現了高達94%的獎勵提升(包括在數千個多樣化社區節點上的測試)。方法原理由N個節點組成的集群會隨時間生成并交換軌跡(rollouts)。每個節點都擁...
2025-09-17 07:26:08 1737瀏覽 0點贊 0回復 0收藏
本文將介紹DuPO——這一突破性AI框架可使大語言模型(LLM)實現自我驗證與優化,無需高昂的人工標注。我們將探討其“廣義對偶性”如何解決數學、翻譯等不可逆任務,并助力模型實現最先進性能。當前人工智能正處于關鍵節點。大語言模型(LLM)已展現出驚人的能力,但其發展卻受制于一個顯著且常被忽視的瓶頸:對反饋的持續依賴。目前主流的技術范式——基于人類反饋的強化學習(RLHF),是GPT4、Claude3等模型背后的核心驅動力。...
2025-09-04 06:58:27 1801瀏覽 0點贊 0回復 0收藏
DeepSeekV3、Qwen3和KimiK2等模型已經證明,擴大模型規模和計算資源是提升性能的有效途徑。然而,隨著模型規模的不斷增長,計算效率和資源利用成為了亟待解決的關鍵問題。今天,我們將深入解析美團LongCat團隊最新發布的LongCatFlash模型,這個擁有5600億參數的MixtureofExperts(MoE)語言模型如何在保證強大性能的同時,實現計算效率的突破性提升。技術背景:大型語言模型的效率挑戰近年來,大型語言模型的發展呈現出"越大越好"...
2025-09-04 06:55:57 3585瀏覽 0點贊 0回復 1收藏
圖片引言:具身智能與大模型的完美結合具身智能(EmbodiedAI)旨在開發具有物理形態的智能系統,使其能夠在真實環境中感知、決策、行動和學習。這一領域被認為是通往通用人工智能(AGI)的有希望之路。盡管經過數十年的探索,但要使智能體在開放動態環境中實現人類水平的智能,以執行通用任務,仍然是一個巨大的挑戰。近年來,大模型的突破性進展徹底改變了具身智能領域,通過增強感知、交互、規劃和學習能力,為通用智能體奠定...
2025-09-04 06:50:10 2914瀏覽 0點贊 0回復 0收藏
多模態學習一直是研究熱點,它通過整合來自不同模態的信息來提升模型性能。然而,在實際應用中,多模態學習常常面臨一個棘手的問題——模態不平衡,導致模型過度依賴主導模態而忽視其他模態,限制了整體效果。一、技術背景:多模態學習的挑戰多模態學習旨在通過統一不同模態的模型來增強性能。在現實世界中,對象通常可以通過多種模態來表征。例如,在動作識別任務中,可以整合視頻、音頻和運動傳感器數據來識別人類動作;在文...
2025-08-25 01:21:18 2002瀏覽 0點贊 0回復 0收藏