精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

<ul id="eooew"></ul>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

大模型賦能的具身智能：自主決策和具身學(xué)習(xí)技術(shù)最新綜述

發(fā)布于 2025-9-4 06:50

瀏覽

0收藏

大模型賦能的具身智能：自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū) 圖片

引言：具身智能與大模型的完美結(jié)合

具身智能（Embodied AI）旨在開發(fā)具有物理形態(tài)的智能系統(tǒng)，使其能夠在真實環(huán)境中感知、決策、行動和學(xué)習(xí)。這一領(lǐng)域被認(rèn)為是通往通用人工智能（AGI）的有希望之路。盡管經(jīng)過數(shù)十年的探索，但要使智能體在開放動態(tài)環(huán)境中實現(xiàn)人類水平的智能，以執(zhí)行通用任務(wù)，仍然是一個巨大的挑戰(zhàn)。

近年來，大模型的突破性進(jìn)展徹底改變了具身智能領(lǐng)域，通過增強感知、交互、規(guī)劃和學(xué)習(xí)能力，為通用智能體奠定了基礎(chǔ)。本文將全面解析大模型賦能的具身智能在決策制定和具身學(xué)習(xí)方面的最新進(jìn)展。

大模型賦能的具身智能：自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

技術(shù)背景

具身智能的基本概念

具身智能系統(tǒng)通常包含兩個主要組成部分：物理實體和智能體。物理實體（如人形機器人、四足機器人和智能車輛）執(zhí)行動作并接收反饋，作為物理世界和數(shù)字世界之間的接口。智能體形成認(rèn)知核心，實現(xiàn)自主決策和學(xué)習(xí)。

大模型賦能的具身智能：自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

圖2：具身智能：從整個過程中所需能力的視角

如圖2所示，人類從各種資源（如書籍、教材和在線內(nèi)容）中學(xué)習(xí)技能。當(dāng)遇到不熟悉的場景時，他們會評估環(huán)境，規(guī)劃必要的行動，在心理上模擬策略，并根據(jù)結(jié)果和外部反饋進(jìn)行調(diào)整。具身智能體模仿這種人類式的學(xué)習(xí)和問題解決范式，通過模仿學(xué)習(xí)從人類演示或視頻數(shù)據(jù)中獲取技能，通過強化學(xué)習(xí)在任務(wù)執(zhí)行過程中優(yōu)化策略和行動。

大模型的發(fā)展歷程

大模型包括大型語言模型（LLM）、大型視覺模型（LVM）、大型視覺語言模型（LVLM）、多模態(tài)大型模型（MLM）和視覺語言動作模型（VLA），它們在架構(gòu)、數(shù)據(jù)規(guī)模和任務(wù)復(fù)雜性方面取得了顯著突破，展示了強大的感知、推理和交互能力。

大模型賦能的具身智能：自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

圖3：主要大模型的時間線

大型語言模型（LLM）

2018年，谷歌發(fā)布了BERT，這是一個基于自監(jiān)督任務(wù)預(yù)訓(xùn)練的雙向Transformer模型，顯著提高了自然語言任務(wù)的性能。隨后，OpenAI發(fā)布了GPT，這是一個基于Transformer架構(gòu)的生成模型，使用大規(guī)模無監(jiān)督語料庫進(jìn)行自回歸訓(xùn)練以生成連貫文本，標(biāo)志著生成模型的突破。GPT-2進(jìn)一步擴大了模型規(guī)模和訓(xùn)練數(shù)據(jù)，增強了文本的連貫性和自然性。2020年，GPT-3以其龐大的模型容量和多樣化的訓(xùn)練數(shù)據(jù)樹立了里程碑，在文本生成、問答和翻譯方面表現(xiàn)出色，首次展示了零樣本和少樣本學(xué)習(xí)能力。

大型視覺模型（LVM）

大型視覺模型（LVM）用于處理視覺信息。Vision Transformer（ViT）將Transformer架構(gòu)適配用于計算機視覺，將圖像分割成固定大小的塊，并使用自注意力機制捕獲全局依賴關(guān)系?；诖耍現(xiàn)acebook AI發(fā)布了DINO和DINOv2，利用ViT進(jìn)行自監(jiān)督學(xué)習(xí)。DINO采用學(xué)生-教師網(wǎng)絡(luò)的自蒸餾方法生成高質(zhì)量的圖像表示，通過自注意力和對比學(xué)習(xí)在沒有標(biāo)記數(shù)據(jù)的情況下捕獲語義結(jié)構(gòu)。DINOv2通過改進(jìn)的對比學(xué)習(xí)和更大的訓(xùn)練集增強了DINO，提高了表示質(zhì)量。

大型視覺語言模型（LVLM）

大型視覺語言模型（LVLM）將預(yù)訓(xùn)練的視覺編碼器與視覺語言融合模塊集成，允許處理視覺輸入并通過語言提示響應(yīng)視覺相關(guān)查詢。OpenAI開發(fā)的CLIP通過大規(guī)模圖像文本對上的對比學(xué)習(xí)訓(xùn)練圖像和文本編碼器，對齊配對樣本特征同時最小化未配對樣本，創(chuàng)建與文本語義匹配的視覺表示。BLIP采用雙向自監(jiān)督學(xué)習(xí)融合視覺和語言數(shù)據(jù)，使用"引導(dǎo)"策略提高預(yù)訓(xùn)練效率，改善視覺問答和圖像描述性能。BLIP-2進(jìn)一步引入QFormer結(jié)構(gòu)，從凍結(jié)的圖像編碼器中提取視覺特征，并通過多模態(tài)預(yù)訓(xùn)練與語言指令對齊，實現(xiàn)高效的跨模態(tài)融合。

多模態(tài)大型模型（MLM）

多模態(tài)大型模型可以處理多種模態(tài)，包括文本、視覺、音頻等。根據(jù)輸入輸出范式，MLM可以分為多模態(tài)輸入文本輸出模型和多模態(tài)輸入多模態(tài)輸出模型。

多模態(tài)輸入文本輸出模型集成多種數(shù)據(jù)模態(tài)進(jìn)行全面內(nèi)容理解。例如，Video-Chat通過對話建模增強視頻分析，擅長動態(tài)視覺內(nèi)容理解。基于Llama架構(gòu)，VideoLLaMA整合視覺和音頻輸入，實現(xiàn)強大的視頻內(nèi)容分析。谷歌的Gemini專為多模態(tài)設(shè)計，高效處理文本、圖像和音頻，用于圖像描述和多模態(tài)問答。

多模態(tài)輸入多模態(tài)輸出模型通過學(xué)習(xí)復(fù)雜的數(shù)據(jù)分布生成多種數(shù)據(jù)模態(tài)，如文本、圖像和視頻。例如，DALL·E通過向量量化變分自編碼器（VQ-VAE）和12億參數(shù)的Transformer擴展GPT-3，生成創(chuàng)意、與提示對齊的圖像，支持零樣本任務(wù)。DALL·E 2通過將CLIP集成到DALL·E中進(jìn)一步增強了它，采用兩階段過程：先生成低分辨率圖像，然后進(jìn)行超分辨率增強，大大提高了圖像質(zhì)量和多樣性。DALL·E 3通過增強文本編碼器和訓(xùn)練數(shù)據(jù)質(zhì)量進(jìn)一步改進(jìn)了圖像提示對齊。2024年，OpenAI發(fā)布了Sora，這是一個視頻生成模型，可以從文本提示創(chuàng)建長達(dá)60秒的高質(zhì)量連貫視頻。Sora利用編碼網(wǎng)絡(luò)將輸入轉(zhuǎn)換為離散標(biāo)記，利用大規(guī)模擴散模型優(yōu)化序列，并將去噪標(biāo)記投影回視頻空間。

視覺語言動作模型（VLA）

視覺語言動作模型（VLA）最近獲得了極大關(guān)注。其核心目標(biāo)是直接將多模態(tài)輸入映射到動作輸出，而不是通過分層決策制定的中間步驟，從而提高機器人的感知動作集成能力。VLA的概念最早由RT-2提出，它利用預(yù)訓(xùn)練的視覺語言模型將動作空間離散化為動作標(biāo)記，并通過互聯(lián)網(wǎng)數(shù)據(jù)和機器人數(shù)據(jù)的聯(lián)合微調(diào)實現(xiàn)泛化。然而，其離散動作設(shè)計和閉源性質(zhì)限制了其靈活性和進(jìn)一步研究。為了克服這些限制，出現(xiàn)了基于連續(xù)動作生成的VLA模型和開源VLA模型。最近的VLA模型研究進(jìn)一步解決了這些挑戰(zhàn)。BYO-VLA、3D-VLA、PointVLA處理視覺輸入處理。Octo和Diffusion-VLA解決了動作生成準(zhǔn)確性。TinyVLA和π0提高了計算效率。

大模型通用能力增強技術(shù)

大模型在推理能力、幻覺、計算成本和任務(wù)特異性方面仍然存在局限性。研究人員提出了一系列技術(shù)來增強其通用能力。

大模型賦能的具身智能：自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

圖4：大模型的通用能力增強

上下文學(xué)習(xí)（ICL）

上下文學(xué)習(xí)使大模型能夠通過精心設(shè)計的提示實現(xiàn)零樣本泛化，使它們能夠在無需額外訓(xùn)練和調(diào)整的情況下解決新任務(wù)。利用輸入提示中的上下文，大模型可以理解任務(wù)要求并生成相關(guān)輸出，使其成為從自然語言處理到特定問題解決等應(yīng)用的通用工具。最近的進(jìn)展集中在優(yōu)化提示技術(shù)上，如自動提示生成和動態(tài)示例選擇，以增強ICL在不同領(lǐng)域的魯棒性。

思維鏈（XoT）

思維鏈?zhǔn)且幌盗型评砜蚣?，用于提高大模型解決數(shù)學(xué)、邏輯和開放性問題的能力。思維鏈（CoT）將中間推理步驟納入提示，引導(dǎo)大模型將復(fù)雜問題分解為可管理的部分。思維樹（ToT）通過探索樹狀結(jié)構(gòu)中的多個推理路徑擴展了CoT，允許大模型評估替代解決方案并在必要時回溯。思維圖（GoT）通過采用圖結(jié)構(gòu)進(jìn)一步推進(jìn)了ToT，其中節(jié)點表示中間狀態(tài)，邊捕獲關(guān)系和依賴性，實現(xiàn)靈活的非線性推理。

檢索增強生成（RAG）

檢索增強生成從外部知識庫（如數(shù)據(jù)庫和網(wǎng)絡(luò)源）檢索相關(guān)信息，并將其提供給大模型以生成準(zhǔn)確響應(yīng)。RAG緩解了大模型知識過時或不完整的問題，確保訪問最新和特定領(lǐng)域的信息。最近的進(jìn)展包括結(jié)合密集和稀疏檢索方法的混合檢索機制，以平衡精度和效率，以及將檢索內(nèi)容與生成輸出有效對齊的微調(diào)策略。

推理與行動（ReAct）

推理與行動將推理與行動執(zhí)行集成，使模型在執(zhí)行任務(wù)時能夠產(chǎn)生明確的推理軌跡。通過要求大模型在行動之前闡述其思維過程，ReAct提高了決策透明度，并改善了動態(tài)交互環(huán)境中的性能。

人類反饋強化學(xué)習(xí)（RLHF）

人類反饋強化學(xué)習(xí)將人類偏好整合到大模型的訓(xùn)練中，使大模型與人類價值觀和意圖保持一致。利用人類反饋作為獎勵信號，RLHF提高了模型在動態(tài)交互環(huán)境中生成有幫助、無害和誠實輸出的能力。通過提示模型生成多個響應(yīng)，RLHF允許人類根據(jù)質(zhì)量和安全性對其進(jìn)行排名或評分，并使用此反饋來優(yōu)化模型的未來生成，確保一致性和倫理考慮。

模型上下文協(xié)議（MCP）

模型上下文協(xié)議（MCP）是由Anthropic引入的開源標(biāo)準(zhǔn)，為大模型與外部數(shù)據(jù)源、工具和服務(wù)交互提供了標(biāo)準(zhǔn)化接口。MCP增強了大模型的互操作性和適應(yīng)性，使其能夠與各種外部系統(tǒng)無縫集成。MCP的最新發(fā)展集中在擴展其與多模態(tài)輸入的兼容性以及優(yōu)化其在實時應(yīng)用中的性能。

大模型賦能具身智能的方法與技術(shù)

分層自主決策制定

智能體的自主決策制定旨在將環(huán)境感知和任務(wù)理解轉(zhuǎn)化為可執(zhí)行的決策和物理行動。傳統(tǒng)的決策制定采用分層范式，包括感知和交互、高層規(guī)劃、低層執(zhí)行以及反饋和增強。感知和交互層依賴于視覺模型，高層規(guī)劃層依賴于預(yù)定義的邏輯規(guī)則，低層執(zhí)行層依賴于經(jīng)典控制算法。這些方法在結(jié)構(gòu)化環(huán)境中表現(xiàn)出色，但由于缺乏整體優(yōu)化和高層決策能力，在非結(jié)構(gòu)化或動態(tài)環(huán)境中表現(xiàn)不佳。

大模型的進(jìn)步，憑借其強大的學(xué)習(xí)、推理和泛化能力，在復(fù)雜任務(wù)處理方面顯示出前景。通過將大模型的推理能力與物理實體的執(zhí)行能力相結(jié)合，為自主決策制定提供了新的范式。

大模型賦能的具身智能：自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

圖5：分層決策制定范式，包括感知和交互、高層規(guī)劃、低層執(zhí)行、反饋和增強

高層規(guī)劃

高層規(guī)劃根據(jù)任務(wù)指令和感知信息產(chǎn)生合理的計劃。傳統(tǒng)的高層規(guī)劃依賴于基于規(guī)則的方法。給定在規(guī)劃領(lǐng)域定義語言（PDDL）中指定的初始狀態(tài)和目標(biāo)，啟發(fā)式搜索規(guī)劃器驗證行動前提的可行性，并使用搜索樹選擇最優(yōu)行動序列，從而生成高效且經(jīng)濟的計劃。雖然在結(jié)構(gòu)化環(huán)境中有效，但基于規(guī)則的方法在非結(jié)構(gòu)化或動態(tài)場景中的適應(yīng)性較差。大模型利用其零樣本和少樣本泛化能力，在應(yīng)對這些挑戰(zhàn)方面推動了突破。根據(jù)規(guī)劃形式，大模型賦能的高層規(guī)劃可以分為結(jié)構(gòu)化語言規(guī)劃、自然語言規(guī)劃和編程語言規(guī)劃。

大模型賦能的具身智能：自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

圖6：大模型賦能的高層規(guī)劃

結(jié)構(gòu)化語言規(guī)劃

大模型可以通過兩種關(guān)鍵策略增強結(jié)構(gòu)化語言規(guī)劃，如圖6(a)所示。(1) 第一種策略將大模型用作規(guī)劃器，利用其零/少樣本泛化能力生成計劃。然而，Valmeekam等人證明，由于嚴(yán)格的PDDL語法和語義，大模型經(jīng)常生成不可行的計劃，導(dǎo)致邏輯錯誤。為了緩解這個問題，LLV引入了一個外部驗證器，即PDDL解析器或環(huán)境模擬器，通過錯誤反饋檢查并迭代改進(jìn)大模型生成的計劃。FSP-LLM優(yōu)化了提示工程，使計劃與邏輯約束保持一致，確保任務(wù)的可行性。(2) 第二種策略利用大模型自動化PDDL生成，減少領(lǐng)域建模中的人工工作。在LLM+P中，大模型創(chuàng)建PDDL領(lǐng)域文件和問題描述，然后由傳統(tǒng)規(guī)劃器解決，結(jié)合了語言理解和符號推理。PDDL-WM使用大模型迭代構(gòu)建和完善PDDL領(lǐng)域模型，通過解析器和用戶反饋驗證，確保正確性和可執(zhí)行性。通過利用大模型作為直接規(guī)劃器或PDDL生成器，這些策略增強了自動化，減少了用戶參與，從而顯著提高了規(guī)劃效率、適應(yīng)性和可擴展性。

自然語言規(guī)劃

自然語言比結(jié)構(gòu)化語言提供了更大的表達(dá)靈活性，能夠充分利用大模型將復(fù)雜計劃分解為子計劃，如圖6(b)所示。然而，自然語言規(guī)劃通常產(chǎn)生不可行的計劃，因為其輸出通?；诮?jīng)驗而非實際環(huán)境。例如，當(dāng)指示"清理房間"時，大模型可能提出"取吸塵器"，而沒有驗證其可用性。Zero-shot探索了使用大模型將高級任務(wù)分解為一系列可執(zhí)行語言規(guī)劃步驟的可行性。他們的實驗表明，大模型可以基于常識推理生成初步計劃，但缺乏對物理環(huán)境和行動可行性的約束。

為了解決這個問題，SayCAN將大模型與強化學(xué)習(xí)相結(jié)合，結(jié)合大模型生成的計劃與預(yù)定義的技能庫和價值函數(shù)來評估行動可行性。通過用預(yù)期累積獎勵對行動進(jìn)行評分，SayCAN過濾掉不切實際的步驟（如"跳到桌子上抓杯子"），而選擇更安全的高價值行動（如"移動到桌子并伸出手"）。Text2Motion通過結(jié)合幾何可行性進(jìn)一步增強了涉及空間交互的任務(wù)規(guī)劃。它使用大模型提出候選行動序列，然后通過檢查器評估其物理可行性，以避免"將大盒子堆在小球上"等行動。然而，這兩種方法都依賴于固定的技能集，缺乏對開放任務(wù)的適應(yīng)性。Grounded Decoding通過引入靈活的解碼策略解決了這一限制。它動態(tài)地將大模型輸出與實時基礎(chǔ)模型集成，該模型根據(jù)當(dāng)前環(huán)境狀態(tài)和智能體能力評估行動可行性，引導(dǎo)大模型生成上下文可行的計劃。

編程語言規(guī)劃

編程語言規(guī)劃將自然語言指令轉(zhuǎn)換為可執(zhí)行程序，利用代碼的精確性定義空間關(guān)系、函數(shù)調(diào)用和控制API，以實現(xiàn)具身任務(wù)中的動態(tài)高層規(guī)劃，如圖6(c)所示。CaP將任務(wù)規(guī)劃轉(zhuǎn)換為代碼生成，生成具有遞歸定義函數(shù)的Python風(fēng)格程序，創(chuàng)建動態(tài)函數(shù)庫。例如，在機器人導(dǎo)航中，CaP首先定義"移動"函數(shù)，然后根據(jù)任務(wù)要求將其擴展為"避障移動"或"接近目標(biāo)"。這種自擴展庫增強了對新任務(wù)的適應(yīng)性，無需預(yù)定義模板。然而，CaP對感知API的依賴和無約束的代碼生成限制了其處理復(fù)雜指令的能力。為了克服這些限制，Instruct2Act通過利用多模態(tài)基礎(chǔ)模型統(tǒng)一感知、規(guī)劃和控制，提供了更集成的解決方案。它使用視覺語言模型進(jìn)行準(zhǔn)確的對象識別和空間關(guān)系理解，提供精確的環(huán)境感知。然后將感知數(shù)據(jù)輸入大模型，該模型從預(yù)定義的機器人技能庫生成基于代碼的行動序列。這種方法顯著提高了規(guī)劃準(zhǔn)確性，使智能體能夠有效適應(yīng)新環(huán)境，特別是在具有顯著視覺組件的任務(wù)中。ProgPrompt采用結(jié)構(gòu)化提示，包括環(huán)境操作、對象描述和示例程序，指導(dǎo)大模型生成定制的基于代碼的計劃。通過結(jié)合預(yù)定義約束，ProgPrompt最小化了無效代碼生成，并增強了跨環(huán)境適應(yīng)性。

低層執(zhí)行

在高層任務(wù)規(guī)劃之后，使用預(yù)定義的技能列表執(zhí)行低層行動。技能列表表示具身智能體執(zhí)行特定任務(wù)所需的一系列基本能力或行動模塊。它們充當(dāng)任務(wù)規(guī)劃和物理執(zhí)行之間的橋梁。例如，感知相關(guān)技能包括對象識別和障礙物檢測，而運動相關(guān)技能包括對象抓取和移動。低層技能的實現(xiàn)涉及控制理論、機器學(xué)習(xí)和機器人工程。方法從傳統(tǒng)控制算法發(fā)展到學(xué)習(xí)驅(qū)動控制，再到模塊化控制。

大模型賦能的具身智能：自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

傳統(tǒng)控制算法

基礎(chǔ)技能通常使用傳統(tǒng)控制算法設(shè)計，主要利用具有明確數(shù)學(xué)推導(dǎo)和物理原理的經(jīng)典基于模型的技術(shù)。比例積分微分（PID）控制調(diào)整參數(shù)以最小化機器人臂關(guān)節(jié)控制中的誤差。狀態(tài)反饋控制通常與線性二次調(diào)節(jié)器（LQR）配對，利用系統(tǒng)狀態(tài)數(shù)據(jù)優(yōu)化性能。模型預(yù)測控制（MPC）通過滾動優(yōu)化預(yù)測狀態(tài)并生成控制序列，非常適合無人機路徑跟蹤等任務(wù)。傳統(tǒng)控制算法提供數(shù)學(xué)可解釋性、低計算復(fù)雜性和實時性能，實現(xiàn)可靠的任務(wù)執(zhí)行。然而，面對動態(tài)環(huán)境時，傳統(tǒng)控制算法缺乏適應(yīng)性，難以處理高維不確定的系統(tǒng)動力學(xué)。它們需要與數(shù)據(jù)驅(qū)動技術(shù)（如深度學(xué)習(xí)和強化學(xué)習(xí)）集成，以增強泛化能力。例如，當(dāng)四足機器人在不平地形上導(dǎo)航時，傳統(tǒng)PID控制與學(xué)習(xí)算法協(xié)作，動態(tài)調(diào)整其步態(tài)。

大模型賦能的學(xué)習(xí)驅(qū)動控制

機器人學(xué)習(xí)位于機器學(xué)習(xí)和機器人的交叉點。它使智能體能夠從大量數(shù)據(jù)（包括人類演示、模擬和環(huán)境交互）中開發(fā)控制策略和低層技能。模仿學(xué)習(xí)和強化學(xué)習(xí)代表兩種重要的學(xué)習(xí)方法。模仿學(xué)習(xí)從專家演示中訓(xùn)練策略，實現(xiàn)快速策略開發(fā)，減少探索時間。Embodied-GPT利用70億參數(shù)的語言模型進(jìn)行高層規(guī)劃，并通過模仿學(xué)習(xí)將計劃轉(zhuǎn)換為低層策略。強化學(xué)習(xí)通過迭代試驗和環(huán)境獎勵優(yōu)化策略，適用于高維動態(tài)環(huán)境。Hi-Core采用雙層框架，其中大模型設(shè)置高層策略和子目標(biāo)，而強化學(xué)習(xí)在低層生成具體行動。這些大模型賦能的學(xué)習(xí)驅(qū)動控制方法提供了強大的適應(yīng)性和泛化能力。然而，它們的訓(xùn)練通常需要大量數(shù)據(jù)和計算資源，策略的收斂性和穩(wěn)定性難以保證。

大模型與預(yù)訓(xùn)練模型的模塊化控制

模塊化控制將大模型與預(yù)訓(xùn)練策略模型（如用于視覺識別的CLIP和用于分割的SAM）集成。通過為大模型提供這些工具的描述，可以在任務(wù)執(zhí)行期間動態(tài)調(diào)用它們。DEPS結(jié)合多個不同模塊，基于任務(wù)要求和預(yù)訓(xùn)練模型的自然語言描述完成檢測和行動。PaLM-E將大模型與用于分割和識別的視覺模塊合并。CLIPort利用CLIP進(jìn)行開放詞匯表檢測。一些研究利用大模型生成代碼來創(chuàng)建用于導(dǎo)航和操作的可調(diào)用函數(shù)庫。這種模塊化方法通過利用共享的預(yù)訓(xùn)練模型，確保了在不同任務(wù)中的可擴展性和可重用性。

然而，挑戰(zhàn)依然存在。首先，調(diào)用外部策略模型可能會引入額外的計算和通信延遲，特別是在實時任務(wù)（如自動駕駛）中，這種延遲可能顯著影響響應(yīng)效率。其次，智能體的整體性能高度依賴于預(yù)訓(xùn)練策略模型的質(zhì)量。如果策略模型存在缺陷（如泛化能力不足或訓(xùn)練數(shù)據(jù)偏差），即使大模型具有強大的規(guī)劃能力，執(zhí)行結(jié)果可能仍然不令人滿意。因此，優(yōu)化模塊之間的通信效率，提高策略模型的魯棒性，以及設(shè)計更智能的調(diào)用決策機制非常重要。

反饋與增強

分層決策制定架構(gòu)通過任務(wù)描述和示例提示指導(dǎo)任務(wù)規(guī)劃。為確保任務(wù)規(guī)劃質(zhì)量，應(yīng)引入閉環(huán)反饋機制。反饋可能來自大模型本身、人類和外部環(huán)境。

大模型賦能的具身智能：自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

圖8：反饋與增強

大模型的自反思

大模型可以充當(dāng)任務(wù)規(guī)劃器、評估器和優(yōu)化器，從而在沒有外部干預(yù)的情況下迭代改進(jìn)決策過程。智能體獲得行動反饋，自主檢測和分析失敗的執(zhí)行，并從先前的任務(wù)中持續(xù)學(xué)習(xí)。通過這種自反思和優(yōu)化機制，大模型可以生成魯棒的策略，在長序列規(guī)劃、多模態(tài)任務(wù)和實時場景中具有優(yōu)勢。自反思可以通過兩種方式實現(xiàn)，如圖8(a)所示。

(1) 第一種方法通過基于檢測到的執(zhí)行失敗或前提錯誤的重新提示觸發(fā)計劃重新生成。重新提示將錯誤上下文（如未能先開門就試圖打開門）作為反饋集成，動態(tài)調(diào)整提示從而糾正大模型生成的計劃。DEPS采用"描述、解釋、規(guī)劃、選擇"框架，其中大模型描述執(zhí)行過程，解釋失敗原因，并重新提示以糾正計劃缺陷，增強交互式規(guī)劃。

(2) 第二種方法采用內(nèi)省機制，使大模型能夠獨立評估和完善其輸出。Self-Refine使用單個大模型進(jìn)行規(guī)劃和優(yōu)化，通過多次自反饋循環(huán)迭代提高計劃合理性。Reflexion通過結(jié)合長期記憶來存儲評估結(jié)果，擴展了它，結(jié)合多種反饋機制增強計劃可行性。ISR-LLM在基于PDDL的規(guī)劃中應(yīng)用迭代自優(yōu)化，生成初始計劃，執(zhí)行合理性檢查，并通過自反饋完善結(jié)果。Voyager專為編程語言規(guī)劃量身定制，通過從執(zhí)行失敗中提取反饋構(gòu)建動態(tài)代碼技能庫，使智能體能夠適應(yīng)復(fù)雜任務(wù)。

人類反饋

人類反饋通過建立與人類的交互閉環(huán)機制來提高規(guī)劃準(zhǔn)確性和效率，如圖8(b)所示。這種方法使智能體能夠基于人類反饋動態(tài)調(diào)整行為。KNOWNO引入了一個不確定性測量框架，允許大模型識別知識缺口，并在高風(fēng)險或不確定情況下尋求人類幫助。EmbodiedGPT采用規(guī)劃-執(zhí)行-反饋循環(huán)，當(dāng)?shù)蛯涌刂剖r，智能體請求人類輸入。這種人類反饋與強化學(xué)習(xí)和自監(jiān)督優(yōu)化相結(jié)合，使智能體能夠迭代改進(jìn)其規(guī)劃策略，確保更好地與動態(tài)環(huán)境條件保持一致。YAY Robot允許用戶用命令暫停機器人并提供指導(dǎo)，促進(jìn)基于語言的實時糾正。反饋被記錄用于策略微調(diào)和定期查詢，實現(xiàn)實時和長期改進(jìn)。IRAP允許與人類進(jìn)行交互式問答，獲取任務(wù)特定知識，實現(xiàn)精確的機器人指令。

環(huán)境反饋

環(huán)境反饋通過與環(huán)境的動態(tài)交互增強基于大模型的規(guī)劃，如圖8(c)所示。InnerMonologue將多模態(tài)輸入轉(zhuǎn)換為語言描述，用于"內(nèi)心獨白"推理，允許大模型根據(jù)環(huán)境反饋調(diào)整計劃。TaPA集成開放詞匯表對象檢測，并為導(dǎo)航和操作定制計劃。DoReMi檢測計劃與實際結(jié)果之間的差異，并采取多模態(tài)反饋動態(tài)調(diào)整任務(wù)。在多智能體設(shè)置中，RoCo利用環(huán)境反饋和智能體間通信實時糾正機械臂路徑規(guī)劃。

基于大模型的規(guī)劃通常需要將反饋轉(zhuǎn)換為自然語言。VLM通過整合視覺輸入和語言推理簡化了這一過程，避免了反饋轉(zhuǎn)換。ViLaIn將大模型與VLM集成，從語言指令和場景觀察生成機器可讀的PDDL，以高精度驅(qū)動符號規(guī)劃器。ViLa和Octopus通過利用GPT4-V MLM生成計劃，實現(xiàn)機器人視覺語言規(guī)劃，整合感知數(shù)據(jù)以實現(xiàn)強大的零樣本推理。Voxposer進(jìn)一步利用MLM提取空間幾何信息，從機器人觀察生成3D坐標(biāo)和約束圖，以填充代碼參數(shù)，從而提高規(guī)劃中的空間準(zhǔn)確性。

端到端自主決策制定

分層范式依賴于單獨的任務(wù)規(guī)劃、行動執(zhí)行和反饋模塊，因此存在錯誤累積問題，難以在不同任務(wù)間泛化。此外，從大模型中衍生的高級語義知識難以直接應(yīng)用于機器人動作執(zhí)行，導(dǎo)致集成差距。為了緩解這些挑戰(zhàn)，端到端自主決策制定最近受到廣泛關(guān)注，它直接將多模態(tài)輸入（即視覺觀察和語言指令）映射到動作。它通常由VLA實現(xiàn)。

大模型賦能的具身智能：自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

圖9：VLA的端到端決策制定

視覺語言動作模型（VLA）

VLA模型通過將感知、語言理解、規(guī)劃、動作執(zhí)行和反饋優(yōu)化集成到一個統(tǒng)一框架中，代表了具身智能的突破。通過利用大模型的豐富先驗知識，VLA模型能夠在動態(tài)開放環(huán)境中實現(xiàn)精確和適應(yīng)性的任務(wù)執(zhí)行。典型的VLA模型包含三個關(guān)鍵組件：標(biāo)記化和表示、多模態(tài)信息融合和動作去標(biāo)記化。

大模型賦能的具身智能：自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

圖10：視覺語言動作模型

標(biāo)記化和表示

VLA模型使用四種標(biāo)記類型：視覺、語言、狀態(tài)和動作，對多模態(tài)輸入進(jìn)行編碼，以實現(xiàn)上下文感知的動作生成。視覺標(biāo)記和語言標(biāo)記將環(huán)境場景和指令編碼為嵌入，形成任務(wù)和上下文的基礎(chǔ)。狀態(tài)標(biāo)記捕獲智能體的物理配置，包括關(guān)節(jié)位置、力矩、夾爪狀態(tài)、末端執(zhí)行器姿態(tài)和對象位置。動作標(biāo)記基于先前的標(biāo)記自回歸生成，表示低層控制信號（如關(guān)節(jié)角度、扭矩、輪速）或高層運動原語（如"移動到抓取姿態(tài)"，"旋轉(zhuǎn)手腕"），使VLA模型能夠充當(dāng)語言驅(qū)動的策略生成器。

多模態(tài)信息融合

視覺標(biāo)記、語言標(biāo)記和狀態(tài)標(biāo)記通過跨模態(tài)注意力機制融合到統(tǒng)一的嵌入中進(jìn)行決策，通常在transformer架構(gòu)內(nèi)實現(xiàn)。這種機制動態(tài)權(quán)衡每個模態(tài)的貢獻(xiàn)，使VLA模型能夠基于任務(wù)上下文對對象語義、空間布局和物理約束進(jìn)行聯(lián)合推理。

動作去標(biāo)記化

融合的嵌入然后被傳遞到自回歸解碼器，通常在transformer架構(gòu)內(nèi)實現(xiàn)，以生成一系列對應(yīng)于低層控制信號或高層運動原語的動作標(biāo)記。動作生成可以是離散的或連續(xù)的。在離散動作生成中，模型從預(yù)定義的動作集中選擇，如特定的運動原語或離散化的控制信號，這些信號被映射到可執(zhí)行命令。在連續(xù)動作生成中，模型輸出細(xì)粒度的控制信號，通常使用最終的MLP層從連續(xù)分布中采樣，實現(xiàn)精確的操作或?qū)Ш?。這些動作標(biāo)記通過將它們映射到可執(zhí)行控制命令來進(jìn)行去標(biāo)記化，這些命令被傳遞到執(zhí)行循環(huán)。循環(huán)反饋更新的狀態(tài)信息，使VLA模型能夠?qū)崟r適應(yīng)擾動、對象移動或遮擋。

機器人Transformer 2（RT-2）是一個著名的VLA模型。它利用Vision Transformer（ViT）進(jìn)行視覺處理，并利用PaLM整合視覺、語言和機器人狀態(tài)信息。特別地，RT-2將動作空間離散化為八個維度（包括6自由度末端執(zhí)行器位移、夾爪狀態(tài)和終止命令）。除了終止命令外，每個維度被劃分為256個離散間隔，從而將連續(xù)動作空間轉(zhuǎn)換為離散標(biāo)記序列。這種離散化使RT-2能夠利用大模型的文本生成能力進(jìn)行機器人控制，實現(xiàn)了前所未有的泛化能力。

具身學(xué)習(xí)方法

具身學(xué)習(xí)使智能體能夠通過長期環(huán)境交互自主完善其行為策略和認(rèn)知模型，實現(xiàn)持續(xù)改進(jìn)。它可以通過模仿學(xué)習(xí)從演示中獲取技能，通過強化學(xué)習(xí)在任務(wù)執(zhí)行過程中優(yōu)化技能。此外，世界模型也在提供智能體進(jìn)行試驗和積累經(jīng)驗的機會方面發(fā)揮著關(guān)鍵作用，通過模擬真實世界的推理空間。這些組件協(xié)同工作，增強具身智能體的能力，向AGI邁進(jìn)。

大模型賦能的模仿學(xué)習(xí)

模仿學(xué)習(xí)使智能體能夠從專家演示中獲取技能，實現(xiàn)快速策略開發(fā)，減少探索時間。大模型通過以下方式增強模仿學(xué)習(xí)：

策略網(wǎng)絡(luò)構(gòu)建：大模型可以構(gòu)建更強大的策略網(wǎng)絡(luò)，從演示中學(xué)習(xí)復(fù)雜的技能。例如，Embodied-GPT利用70億參數(shù)的語言模型進(jìn)行高層規(guī)劃，并通過模仿學(xué)習(xí)將計劃轉(zhuǎn)換為低層策略。
演示數(shù)據(jù)增強：大模型可以生成或增強演示數(shù)據(jù)，提供更多樣化和豐富的學(xué)習(xí)資源。例如，通過生成合成演示或擴展現(xiàn)有演示，大模型可以幫助智能體學(xué)習(xí)更廣泛的技能。
技能分解與組合：大模型可以將復(fù)雜任務(wù)分解為更簡單的子任務(wù)，并學(xué)習(xí)如何組合這些子任務(wù)以解決復(fù)雜問題。這種分解和組合能力使智能體能夠更有效地學(xué)習(xí)復(fù)雜技能。

大模型賦能的強化學(xué)習(xí)

強化學(xué)習(xí)通過迭代試驗和環(huán)境獎勵優(yōu)化策略，適用于高維動態(tài)環(huán)境。大模型通過以下方式增強強化學(xué)習(xí)：

獎勵函數(shù)設(shè)計：大模型可以幫助設(shè)計更復(fù)雜和語義豐富的獎勵函數(shù)，指導(dǎo)智能體學(xué)習(xí)期望的行為。例如，大模型可以基于自然語言描述生成獎勵函數(shù)，使獎勵信號更符合人類意圖。
策略網(wǎng)絡(luò)構(gòu)建：大模型可以構(gòu)建更強大的策略網(wǎng)絡(luò)，實現(xiàn)更復(fù)雜的控制策略。例如，Hi-Core采用雙層框架，其中大模型設(shè)置高層策略和子目標(biāo)，而強化學(xué)習(xí)在低層生成具體行動。
探索策略優(yōu)化：大模型可以指導(dǎo)智能體的探索過程，使其更有效地探索環(huán)境并發(fā)現(xiàn)最優(yōu)策略。例如，大模型可以基于當(dāng)前狀態(tài)和任務(wù)目標(biāo)生成探索建議，幫助智能體避免無效探索。

世界模型

世界模型在具身智能中扮演著關(guān)鍵角色，為智能體提供模擬真實世界推理空間的機會，使其能夠進(jìn)行試驗和積累經(jīng)驗。世界模型通過學(xué)習(xí)環(huán)境的動態(tài)和因果關(guān)系，使智能體能夠預(yù)測行動的結(jié)果，從而更有效地規(guī)劃和學(xué)習(xí)。

世界模型可以通過以下方式增強決策制定和學(xué)習(xí)：

規(guī)劃增強：世界模型可以用于模擬不同行動的結(jié)果，幫助智能體選擇最佳行動序列。例如，智能體可以在世界模型中"預(yù)演"不同的計劃，評估其可能的結(jié)果，然后選擇最佳計劃在真實環(huán)境中執(zhí)行。
學(xué)習(xí)加速：世界模型可以提供額外的訓(xùn)練數(shù)據(jù)，加速學(xué)習(xí)過程。例如，智能體可以在世界模型中進(jìn)行大量試驗，收集經(jīng)驗數(shù)據(jù)，然后在真實環(huán)境中應(yīng)用學(xué)到的知識。
安全探索：世界模型可以用于評估潛在行動的風(fēng)險，避免在真實環(huán)境中執(zhí)行危險行動。例如，智能體可以在世界模型中測試可能危險的行動，評估其安全性，然后決定是否在真實環(huán)境中執(zhí)行。

方法比較與分析

分層決策制定與端到端決策制定的比較

分層決策制定和端到端決策制定各有優(yōu)勢和局限性，適用于不同的應(yīng)用場景。

大模型賦能的具身智能：自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

分層決策制定的優(yōu)勢在于：

模塊化設(shè)計：將感知、規(guī)劃和執(zhí)行分離為不同模塊，使系統(tǒng)更易于理解和維護(hù)。
可解釋性：每個模塊的功能明確，便于理解和調(diào)試。
靈活性：可以單獨改進(jìn)或替換各個模塊，而不影響整個系統(tǒng)。

分層決策制定的局限性在于：

錯誤累積：各模塊之間的接口可能導(dǎo)致錯誤累積，影響整體性能。
集成挑戰(zhàn)：高級語義知識與低層控制之間的集成可能存在困難。
泛化能力有限：在不同任務(wù)和環(huán)境之間的泛化能力可能有限。

端到端決策制定的優(yōu)勢在于：

無縫集成：將感知、規(guī)劃和執(zhí)行集成到一個統(tǒng)一框架中，避免了模塊間的接口問題。
端到端優(yōu)化：可以直接優(yōu)化從感知到行動的整個流程，實現(xiàn)更好的整體性能。
強泛化能力：通過聯(lián)合訓(xùn)練多模態(tài)數(shù)據(jù)，可以實現(xiàn)更強的泛化能力。

端到端決策制定的局限性在于：

可解釋性差：內(nèi)部決策過程難以理解和解釋。
數(shù)據(jù)需求大：需要大量多樣化的訓(xùn)練數(shù)據(jù)，可能難以獲取。
計算資源需求高：訓(xùn)練和推理可能需要大量計算資源。

不同學(xué)習(xí)方法的比較

模仿學(xué)習(xí)和強化學(xué)習(xí)是具身智能中兩種主要的學(xué)習(xí)方法，各有優(yōu)勢和適用場景。

模仿學(xué)習(xí)的優(yōu)勢在于：

學(xué)習(xí)效率高：從專家演示中直接學(xué)習(xí)，避免了隨機探索的過程。
安全性高：學(xué)習(xí)過程不涉及與環(huán)境的大量交互，減少了安全風(fēng)險。
適用于復(fù)雜任務(wù)：可以從人類專家那里學(xué)習(xí)復(fù)雜技能，無需顯式定義獎勵函數(shù)。

模仿學(xué)習(xí)的局限性在于：

演示數(shù)據(jù)依賴：需要高質(zhì)量的專家演示數(shù)據(jù)，可能難以獲取。
泛化能力有限：可能難以泛化到與演示數(shù)據(jù)不同的場景。
缺乏探索：可能無法發(fā)現(xiàn)比演示更好的策略。

強化學(xué)習(xí)的優(yōu)勢在于：

自適應(yīng)性：通過與環(huán)境交互不斷改進(jìn)策略，適應(yīng)環(huán)境變化。
探索能力：可以發(fā)現(xiàn)比現(xiàn)有方法更好的策略。
無需演示數(shù)據(jù)：不需要專家演示數(shù)據(jù)，只需定義獎勵函數(shù)。

強化學(xué)習(xí)的局限性在于：

樣本效率低：通常需要大量與環(huán)境交互的數(shù)據(jù)，學(xué)習(xí)過程可能很慢。
獎勵函數(shù)設(shè)計困難：設(shè)計合適的獎勵函數(shù)可能很困難，尤其是對于復(fù)雜任務(wù)。
安全風(fēng)險：在探索過程中可能執(zhí)行危險動作，存在安全風(fēng)險。

挑戰(zhàn)與未來方向

盡管大模型賦能的具身智能取得了顯著進(jìn)展，但仍面臨諸多挑戰(zhàn)，這些挑戰(zhàn)也為未來的研究提供了方向。

當(dāng)前挑戰(zhàn)

泛化能力：雖然大模型展示了強大的泛化能力，但在具身智能中，智能體仍需要適應(yīng)各種新的環(huán)境和任務(wù)，這對泛化能力提出了更高要求。
實時性：具身智能需要在實時環(huán)境中做出決策和行動，但大模型的計算復(fù)雜度高，可能難以滿足實時性要求。
安全性與可靠性：在物理世界中行動的智能體需要確保其行為的安全性和可靠性，避免造成傷害或損失。
多模態(tài)融合：有效融合視覺、語言、聽覺、觸覺等多種模態(tài)的信息，實現(xiàn)全面的環(huán)境理解，仍是一個挑戰(zhàn)。
長期學(xué)習(xí)：實現(xiàn)智能體的持續(xù)學(xué)習(xí)和適應(yīng)，使其能夠在長期運行中不斷改進(jìn)，是一個重要挑戰(zhàn)。
能源效率：大模型和具身智能系統(tǒng)通常需要大量能源，提高能源效率對于實際應(yīng)用至關(guān)重要。

未來方向

更高效的模型架構(gòu)：開發(fā)更高效的大模型架構(gòu)，降低計算復(fù)雜度，提高實時性能，同時保持強大的能力。
更好的多模態(tài)融合：研究更有效的多模態(tài)融合方法，實現(xiàn)全面的環(huán)境理解和靈活的交互。
更強的安全保證：開發(fā)確保智能體行為安全可靠的方法，包括形式化驗證、安全監(jiān)控和應(yīng)急機制。
更智能的學(xué)習(xí)方法：研究更智能的學(xué)習(xí)方法，提高學(xué)習(xí)效率，減少對大量數(shù)據(jù)的依賴，實現(xiàn)更快速的知識獲取和技能掌握。
更真實的模擬環(huán)境：開發(fā)更真實的模擬環(huán)境，為智能體提供更好的訓(xùn)練和測試平臺，縮小模擬與真實世界之間的差距。
更緊密的人機協(xié)作：研究更緊密的人機協(xié)作方法，使人類和智能體能夠優(yōu)勢互補，共同解決復(fù)雜問題。

結(jié)論

大模型賦能的具身智能代表了人工智能領(lǐng)域的一個重要發(fā)展方向，通過將大模型的強大能力與物理實體相結(jié)合，實現(xiàn)更智能、更自主的系統(tǒng)。本文全面分析了大模型賦能的具身智能在決策制定和具身學(xué)習(xí)方面的最新進(jìn)展，包括分層決策制定、端到端決策制定、模仿學(xué)習(xí)、強化學(xué)習(xí)和世界模型等關(guān)鍵技術(shù)。

盡管取得了顯著進(jìn)展，但大模型賦能的具身智能仍面臨諸多挑戰(zhàn)，包括泛化能力、實時性、安全性、多模態(tài)融合、長期學(xué)習(xí)和能源效率等方面。未來的研究將致力于解決這些挑戰(zhàn)，推動具身智能向更高水平發(fā)展，最終實現(xiàn)通用人工智能的目標(biāo)。

隨著技術(shù)的不斷進(jìn)步，大模型賦能的具身智能將在機器人技術(shù)、自動駕駛、智能家居、醫(yī)療護(hù)理等領(lǐng)域發(fā)揮越來越重要的作用，為人類社會帶來深遠(yuǎn)的影響。我們期待看到更多創(chuàng)新的研究和應(yīng)用，推動這一領(lǐng)域向前發(fā)展。

??https://arxiv.org/pdf/2508.10399??
Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning

本文轉(zhuǎn)載自??AIGC深一度??，作者：一度

標(biāo)簽

已于2025-9-4 09:34:26修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

造完“大模型”，“具身智能”將引領(lǐng)AI下一個浪潮？

kekenai ? 4722瀏覽 ? 0回復(fù)
Meta推出開放世界具身問答數(shù)據(jù)集OpenEQA：視覺大模型在具身智能上還有很長的路要走！

AIGC最前線 ? 5428瀏覽 ? 0回復(fù)
具身智能體三維感知新鏈條，TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」

輕薄滴假象 ? 5406瀏覽 ? 0回復(fù)
具身智能成敗之關(guān)鍵！干貨長文首次全面回顧具身智能領(lǐng)域中的視覺-語言-動作模型！

angel ? 9670瀏覽 ? 0回復(fù)
讓具身智能更快更強！華東師大&上大提出TinyVLA：高效視覺-語言-動作模型，遙遙領(lǐng)先

angel ? 5389瀏覽 ? 0回復(fù)
從具身智能再談強化學(xué)習(xí)，為什么需要強化學(xué)習(xí)，以及強化學(xué)習(xí)的應(yīng)用場景

AI探索時代 ? 4806瀏覽 ? 0回復(fù)
什么是具身智能模型，它和普通大模型有什么區(qū)別？

AI探索時代 ? 5765瀏覽 ? 0回復(fù)
視頻生成和具身智能強強聯(lián)合！谷歌&卡內(nèi)基梅隆&斯坦福發(fā)布Gen2Act：泛化超棒！

angel ? 3504瀏覽 ? 0回復(fù)
多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降

angel ? 4345瀏覽 ? 0回復(fù)
華為諾亞方舟實驗室突破具身AI瓶頸， SpatialCoT通過坐標(biāo)對齊和思路鏈推進(jìn)空間推理

xuxiangda ? 6507瀏覽 ? 0回復(fù)
大模型驅(qū)動空間智能綜述：具身智能體、智慧城市與地球科學(xué)的進(jìn)展

歐米伽未來研究所 ? 3955瀏覽 ? 0回復(fù)
LightPlanner：中科視語開源的輕量化具身推理大模型，賦能機器人高效決策

穿越時空111 ? 2251瀏覽 ? 0回復(fù)
多智能體具身智能絕對是下一個AI爆點

PyTorch研習(xí)社 ? 2222瀏覽 ? 0回復(fù)
Nvidia的具身推理模型還缺什么？

ceesoft ? 2299瀏覽 ? 0回復(fù)
具身智能最權(quán)威的一場圓桌！王興興回應(yīng)質(zhì)疑：當(dāng)AI和具身智能到達(dá)某一階段，機器人一定能打格斗！

51CTO技術(shù)棧 ? 2130瀏覽 ? 0回復(fù)
一文看懂啥是具身智能、VLM 和 VLA

智駐未來 ? 6594瀏覽 ? 0回復(fù)
將智能植根于運動之中——從AI模型到具身智能的下一個躍遷

xuxiangda ? 4479瀏覽 ? 0回復(fù)
具身智能的里程碑：Figure 03 解讀

墨風(fēng)如雪小站 ? 954瀏覽 ? 0回復(fù)
從GEN-0看具身AI的革命

魯班模錘1 ? 281瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

楊立昆以Meta身份發(fā)表的最后一篇論文 7天前發(fā)布
注意力如何照亮LLM推理——預(yù)規(guī)劃與錨定節(jié)奏的機制與優(yōu)化 7天前發(fā)布

熱門推薦

用 Cognee 構(gòu)建端到端知識圖譜，實現(xiàn)當(dāng)前效果最好的AI Agent記憶層 0回復(fù)

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復(fù)

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態(tài)輕量化邊界 0回復(fù)

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復(fù)

8%價格，2倍速度！國產(chǎn)MiniMax M2暴打Claude Sonnet 4.5？我們實測后發(fā)現(xiàn)堪稱性價比之王！ 0回復(fù)

上一篇：多模態(tài)學(xué)習(xí)新突破：自適應(yīng)掩碼子網(wǎng)絡(luò)解決模態(tài)不平衡問題

下一篇： Agentic新SOTA誕生！美團開源5600億參數(shù)MoE大模型的效率革命

社區(qū)精華內(nèi)容

目錄

精彩视频一区二区| 国产一区二区欧美| 亚洲永久免费av| 91久久中文字幕| 中文字幕人妻一区二| 成人在线视频国产| 亚洲国产三级在线| 日本不卡在线播放| 国产欧美综合视频| 国产精品magnet| 亚洲精品中文字幕av| 色七七在线观看| 麻豆av在线免费看| aa级大片欧美| 国产精品爽爽爽| 久久久免费看片| 99ri日韩精品视频| 狠狠躁夜夜躁人人爽超碰91| 偷拍视频一区二区| 亚洲av无码国产综合专区| 国产一区二区精品| www.欧美免费| 亚洲av网址在线| 久久久加勒比| 香蕉av福利精品导航| 日本中文不卡| www.xxx国产| 久久国产成人| 欧美国产日韩一区| а天堂中文在线资源| 国产成人精品福利| 欧美日韩在线播放三区四区| 日本熟妇人妻xxxx| 求av网址在线观看| 99久久er热在这里只有精品15| 2020国产精品视频| 婷婷久久综合网| av中文一区| 亚洲精品国产欧美| 亚洲免费在线播放视频| 欧美电影h版| 亚洲专区一二三| 免费成人深夜夜行网站视频| 青青草在线视频免费观看| 国产激情视频一区二区在线观看| 国产精品久久久久国产a级| 日韩黄色在线视频| 欧美1区2区3区| 最新国产精品拍自在线播放| 91中文字幕永久在线| 在线日韩成人| 欧美一区二区在线不卡| 国产精品人人妻人人爽人人牛| 黄色影院在线看| 成人免费在线观看入口| 欧美激情导航| 性高潮久久久久久久久久| 国产九色精品成人porny | 国产乱了高清露脸对白| 亚洲综合色婷婷在线观看| 欧美巨大另类极品videosbest| 亚洲人成无码www久久久| 91黄页在线观看| 亚洲成a人片在线不卡一二三区| 国产va亚洲va在线va| 国产色婷婷在线| 五月婷婷激情综合| 看av免费毛片手机播放| 欧美黑人疯狂性受xxxxx野外| 欧美性猛交xxxx富婆| 蜜臀视频一区二区三区| 久久久国产精品网站| 欧美一区二区黄色| 美女搡bbb又爽又猛又黄www| 久久porn| 一区二区三区视频在线| 中文字幕无码日韩专区免费| 欧美激情成人在线| 98视频在线噜噜噜国产| 黄色一级视频免费看| 麻豆一区二区99久久久久| 亚洲在线视频福利| 日韩一区二区三区不卡| 国产无人区一区二区三区| 亚洲在线不卡| 视频在线观看入口黄最新永久免费国产| 亚洲一区二区在线免费观看视频| 男人日女人逼逼| 高清av一区二区三区| 欧美一卡二卡三卡四卡| 无码精品一区二区三区在线播放 | 日韩成人av网址| 久久亚洲无码视频| 91精品国产自产在线观看永久∴| 久久久久久91| 日韩精品在线一区二区三区| 国产在线精品免费| 欧美成人第一区| 国产日产一区二区| 精品国产户外野外| 五月婷婷之婷婷| 日韩av影院| 久久伊人精品视频| 销魂美女一区二区| 国产原创一区二区| 日韩电影免费观看在| 午夜成年人在线免费视频| 色综合久久久久久久久久久| 欧美在线a视频| 精品欧美久久| 91国自产精品中文字幕亚洲| 国产一区二区三区中文字幕| 91蜜桃婷婷狠狠久久综合9色| 中文字幕久久一区| gay欧美网站| 精品国产乱码久久久久久老虎| www.av欧美| 亚洲激情不卡| 91高跟黑色丝袜呻吟在线观看| 黄色软件在线| 五月天网站亚洲| 亚洲综合123| 精品一区二区三区中文字幕老牛| 91高清在线免费观看| 精品人妻一区二区三区三区四区| 中文字幕不卡一区| 白嫩少妇丰满一区二区| 国产主播性色av福利精品一区| 久久九九亚洲综合| 亚洲国产无线乱码在线观看| 26uuu另类欧美亚洲曰本| cao在线观看| 中文字幕亚洲在线观看| 久久精品亚洲热| 最近中文字幕在线观看视频| 久久亚洲精品小早川怜子| 久久久久久久久久网| 亚洲视频国产| 成年无码av片在线| 国产丝袜视频在线观看| 亚洲女同一区二区| 亚洲综合123| 亚洲色图欧美| 亚洲一区二区三区视频播放| 国产cdts系列另类在线观看| 91精品国产高清一区二区三区| 羞羞在线观看视频| 久久精品国产秦先生| 亚洲精品一区二区三区四区五区 | 久久精品理论片| 日本一区二区三区视频免费看| 色偷偷偷在线视频播放| 亚洲精品乱码久久久久久按摩观| 国产午夜免费视频| 懂色av噜噜一区二区三区av| 日韩精品一区在线视频| 久久精品色综合| 2019av中文字幕| 九色在线免费| 欧美日韩五月天| 永久免费看片直接| 国内精品免费**视频| 免费成人进口网站| jizz性欧美23| 国产69精品久久久久久| 欧美日韩激情视频一区二区三区| 色综合久久久久综合体桃花网| 国产精品国产三级国产专业不 | 欧美日韩三级一区二区| 在线观看免费黄色网址| 国产在线播放一区三区四| 99久久99久久精品| 麻豆一区二区| 国产精品www色诱视频| 乱人伦中文视频在线| 91精品国产麻豆| 日本三级视频在线| 久久亚洲一级片| 天天干天天色天天干| 欧美福利电影在线观看| 国产精品三区四区| 欧美人体一区二区三区| www.国产精品一二区| www国产在线| 日韩欧美在线视频免费观看| 18精品爽国产三级网站| 国产成人av一区二区三区在线观看| 97视频在线免费| 九九热爱视频精品视频| 成人精品一区二区三区电影免费| 性直播体位视频在线观看| 日韩精品在线影院| 国产又大又黄的视频| 五月婷婷另类国产| 中文字幕第69页| 99精品国产91久久久久久| 午夜宅男在线视频| 1024成人| 日本精品免费视频| 国产精品一区二区av交换| 亚洲综合中文字幕在线| 肉色欧美久久久久久久免费看| 精品自在线视频| 8888四色奇米在线观看| 亚洲第一精品久久忘忧草社区| 中文字幕无码乱码人妻日韩精品| 香蕉av福利精品导航| 色偷偷男人天堂| 91网址在线看| 老女人性生活视频| 麻豆久久一区二区| 久久视频这里有精品| 亚洲a在线视频| 欧美成ee人免费视频| 日韩三级网址| 国产精品一二三在线| 在线看片福利| 欧美日韩第一页| 欧美一级二级三级区| 亚洲天堂久久av| 日本高清视频免费观看| 欧美精品第1页| 中文字幕在线天堂| 五月婷婷色综合| 久久国产露脸精品国产| 中文字幕亚洲不卡| 干b视频在线观看| 不卡的av网站| 性一交一黄一片| 国产精品69毛片高清亚洲| 尤物国产在线观看| 日韩av电影天堂| 午夜视频在线瓜伦| 香蕉av777xxx色综合一区| 极品粉嫩国产18尤物| 欧美精品99| 国产精品免费看久久久无码| 欧美高清视频手机在在线| 污视频在线免费观看一区二区三区 | 欧美做受xxxxxⅹ性视频| 99久久综合色| 捆绑凌虐一区二区三区| 粉嫩aⅴ一区二区三区四区| 超碰人人cao| 国产精品996| 苍井空张开腿实干12次| 国产91精品免费| 精品国产aⅴ一区二区三区东京热| 国产一区视频导航| www.久久com| 福利电影一区二区三区| 无码国产精品一区二区免费式直播 | 国产日韩精品视频| 欧美高清影院| 成人做爰www免费看视频网站| 亚洲影视资源| 成人高清在线观看| 成人福利免费在线观看| 国产亚洲一区二区三区在线播放| 青青草久久爱| 青青成人在线| 水蜜桃精品av一区二区| 宅男在线精品国产免费观看| 综合久久十次| 人妻夜夜添夜夜无码av | 在线观看国产中文字幕| 久久精品国产免费| 日本网站在线看| gogo大胆日本视频一区| 一二三不卡视频| 国产欧美日本一区视频| 97在线观看视频免费| 亚洲精选免费视频| 久久高清免费视频| 欧美性高潮在线| 91美女精品网站| 亚洲精品一区二区精华| 免费看男男www网站入口在线| 在线观看免费高清视频97| 黄色网址在线免费| 国语自产在线不卡| av在线一区不卡| 国产精品国产三级欧美二区| 外国成人在线视频| 制服国产精品| 日韩一区二区久久| 天天干天天爽天天射| 成人晚上爱看视频| 亚洲精品91在线| 亚洲一区在线免费观看| 久久久久亚洲视频| 欧美成人精品1314www| 国产在线一二三区| 精品综合久久久久久97| 日本精品裸体写真集在线观看| 91亚洲精品一区二区| 亚洲国产国产| 黄色一级大片免费| 日韩国产高清影视| 少妇伦子伦精品无吗| 国产人成亚洲第一网站在线播放| 日本高清一二三区| 91传媒视频在线播放| 朝桐光av在线一区二区三区| 国产亚洲精品美女久久久久| 欧美wwww| 成人福利视频网| 香蕉视频一区| 国产欧美久久久久| 裸体在线国模精品偷拍| 欧美日本国产| 一区二区三区**美女毛片| 中文字幕自拍偷拍| 日韩av在线看| 五月婷婷视频在线观看| 国产在线观看精品| 国产欧美日韩影院| 欧美三级一级片| www.日本不卡| 青青草原在线免费观看视频| 欧美三级日韩三级| 久久久久久女乱国产| 久久久伊人日本| 精品国模一区二区三区欧美| 日韩欧美一区二区三区四区五区| 亚洲免费精品| 亚洲精品久久一区二区三区777| 国产精品国产三级国产aⅴ中文| 亚洲婷婷综合网| 日韩国产精品视频| 123区在线| 国产一区二区精品免费| 欧美精品一线| 波多野结衣三级视频| 亚洲视频免费观看| 国产模特av私拍大尺度| xvideos亚洲人网站| 精品美女一区| 亚洲图片都市激情| 蜜桃视频在线一区| 日本污视频网站| 欧洲国产伦久久久久久久| 国产福利在线观看| 国产精品com| 成人在线免费观看视频| 欧美三级理论片| 136国产福利精品导航| 91在线视频国产| 中文字幕日韩av| 亚州精品国产| 永久免费网站视频在线观看| 国产美女久久久久| 久草视频免费播放| 亚洲第一视频网站| av资源在线播放| 农村寡妇一区二区三区| 日韩成人一级片| 波多野结衣喷潮| 欧美一区二区三区视频免费播放 | 亚洲免费av网站| 国产亲伦免费视频播放| 欧美高清视频在线观看| 国产精品115| 毛片一区二区三区四区| 久久精品男人的天堂| 中文字幕+乱码+中文乱码91| 久久视频在线看| 成人盗摄视频| 欧美日韩在线成人| 国产精品久久久久久久久搜平片 | 免费观看亚洲视频| 国产成人av资源| 黄色免费av网站| 日韩在线播放av| av成人资源网| 黄色三级视频片| 亚洲免费在线视频一区二区| 丰满人妻一区二区三区免费| 97在线日本国产| 清纯唯美亚洲综合一区| avtt中文字幕| 欧洲另类一二三四区| 99在线视频观看| 看高清中日韩色视频| 久久99精品久久久久婷婷| 久操视频免费在线观看| 亚洲女同性videos| crdy在线观看欧美| 成人毛片视频网站| 中文字幕一区在线观看视频| 亚洲av综合色区无码一区爱av| 欧美一级淫片videoshd| 我不卡影院28| 国产精品三级在线观看无码| 欧美精选午夜久久久乱码6080| 999福利在线视频| 亚洲区一区二区三区| av在线这里只有精品| 亚洲无码久久久久| 5278欧美一区二区三区|

<strike id="uas0y"></strike>

<strike id="uas0y"><s id="uas0y"></s></strike>

<strike id="uas0y"></strike>

<th id="uas0y"></th>

<li id="uas0y"></li>