精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型賦能的具身智能:自主決策和具身學(xué)習(xí)技術(shù)最新綜述

發(fā)布于 2025-9-4 06:50
瀏覽
0收藏

大模型賦能的具身智能:自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)圖片

引言:具身智能與大模型的完美結(jié)合

具身智能(Embodied AI)旨在開發(fā)具有物理形態(tài)的智能系統(tǒng),使其能夠在真實環(huán)境中感知、決策、行動和學(xué)習(xí)。這一領(lǐng)域被認(rèn)為是通往通用人工智能(AGI)的有希望之路。盡管經(jīng)過數(shù)十年的探索,但要使智能體在開放動態(tài)環(huán)境中實現(xiàn)人類水平的智能,以執(zhí)行通用任務(wù),仍然是一個巨大的挑戰(zhàn)。

近年來,大模型的突破性進(jìn)展徹底改變了具身智能領(lǐng)域,通過增強感知、交互、規(guī)劃和學(xué)習(xí)能力,為通用智能體奠定了基礎(chǔ)。本文將全面解析大模型賦能的具身智能在決策制定和具身學(xué)習(xí)方面的最新進(jìn)展。

大模型賦能的具身智能:自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

技術(shù)背景

具身智能的基本概念

具身智能系統(tǒng)通常包含兩個主要組成部分:物理實體智能體。物理實體(如人形機器人、四足機器人和智能車輛)執(zhí)行動作并接收反饋,作為物理世界和數(shù)字世界之間的接口。智能體形成認(rèn)知核心,實現(xiàn)自主決策和學(xué)習(xí)。

大模型賦能的具身智能:自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

                               圖2:具身智能:從整個過程中所需能力的視角

如圖2所示,人類從各種資源(如書籍、教材和在線內(nèi)容)中學(xué)習(xí)技能。當(dāng)遇到不熟悉的場景時,他們會評估環(huán)境,規(guī)劃必要的行動,在心理上模擬策略,并根據(jù)結(jié)果和外部反饋進(jìn)行調(diào)整。具身智能體模仿這種人類式的學(xué)習(xí)和問題解決范式,通過模仿學(xué)習(xí)從人類演示或視頻數(shù)據(jù)中獲取技能,通過強化學(xué)習(xí)在任務(wù)執(zhí)行過程中優(yōu)化策略和行動。

大模型的發(fā)展歷程

大模型包括大型語言模型(LLM)、大型視覺模型(LVM)、大型視覺語言模型(LVLM)、多模態(tài)大型模型(MLM)和視覺語言動作模型(VLA),它們在架構(gòu)、數(shù)據(jù)規(guī)模和任務(wù)復(fù)雜性方面取得了顯著突破,展示了強大的感知、推理和交互能力。

大模型賦能的具身智能:自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

                                             圖3:主要大模型的時間線

大型語言模型(LLM)

2018年,谷歌發(fā)布了BERT,這是一個基于自監(jiān)督任務(wù)預(yù)訓(xùn)練的雙向Transformer模型,顯著提高了自然語言任務(wù)的性能。隨后,OpenAI發(fā)布了GPT,這是一個基于Transformer架構(gòu)的生成模型,使用大規(guī)模無監(jiān)督語料庫進(jìn)行自回歸訓(xùn)練以生成連貫文本,標(biāo)志著生成模型的突破。GPT-2進(jìn)一步擴大了模型規(guī)模和訓(xùn)練數(shù)據(jù),增強了文本的連貫性和自然性。2020年,GPT-3以其龐大的模型容量和多樣化的訓(xùn)練數(shù)據(jù)樹立了里程碑,在文本生成、問答和翻譯方面表現(xiàn)出色,首次展示了零樣本和少樣本學(xué)習(xí)能力。

大型視覺模型(LVM)

大型視覺模型(LVM)用于處理視覺信息。Vision Transformer(ViT)將Transformer架構(gòu)適配用于計算機視覺,將圖像分割成固定大小的塊,并使用自注意力機制捕獲全局依賴關(guān)系?;诖耍現(xiàn)acebook AI發(fā)布了DINO和DINOv2,利用ViT進(jìn)行自監(jiān)督學(xué)習(xí)。DINO采用學(xué)生-教師網(wǎng)絡(luò)的自蒸餾方法生成高質(zhì)量的圖像表示,通過自注意力和對比學(xué)習(xí)在沒有標(biāo)記數(shù)據(jù)的情況下捕獲語義結(jié)構(gòu)。DINOv2通過改進(jìn)的對比學(xué)習(xí)和更大的訓(xùn)練集增強了DINO,提高了表示質(zhì)量。

大型視覺語言模型(LVLM)

大型視覺語言模型(LVLM)將預(yù)訓(xùn)練的視覺編碼器與視覺語言融合模塊集成,允許處理視覺輸入并通過語言提示響應(yīng)視覺相關(guān)查詢。OpenAI開發(fā)的CLIP通過大規(guī)模圖像文本對上的對比學(xué)習(xí)訓(xùn)練圖像和文本編碼器,對齊配對樣本特征同時最小化未配對樣本,創(chuàng)建與文本語義匹配的視覺表示。BLIP采用雙向自監(jiān)督學(xué)習(xí)融合視覺和語言數(shù)據(jù),使用"引導(dǎo)"策略提高預(yù)訓(xùn)練效率,改善視覺問答和圖像描述性能。BLIP-2進(jìn)一步引入QFormer結(jié)構(gòu),從凍結(jié)的圖像編碼器中提取視覺特征,并通過多模態(tài)預(yù)訓(xùn)練與語言指令對齊,實現(xiàn)高效的跨模態(tài)融合。

多模態(tài)大型模型(MLM)

多模態(tài)大型模型可以處理多種模態(tài),包括文本、視覺、音頻等。根據(jù)輸入輸出范式,MLM可以分為多模態(tài)輸入文本輸出模型和多模態(tài)輸入多模態(tài)輸出模型。

多模態(tài)輸入文本輸出模型集成多種數(shù)據(jù)模態(tài)進(jìn)行全面內(nèi)容理解。例如,Video-Chat通過對話建模增強視頻分析,擅長動態(tài)視覺內(nèi)容理解。基于Llama架構(gòu),VideoLLaMA整合視覺和音頻輸入,實現(xiàn)強大的視頻內(nèi)容分析。谷歌的Gemini專為多模態(tài)設(shè)計,高效處理文本、圖像和音頻,用于圖像描述和多模態(tài)問答。

多模態(tài)輸入多模態(tài)輸出模型通過學(xué)習(xí)復(fù)雜的數(shù)據(jù)分布生成多種數(shù)據(jù)模態(tài),如文本、圖像和視頻。例如,DALL·E通過向量量化變分自編碼器(VQ-VAE)和12億參數(shù)的Transformer擴展GPT-3,生成創(chuàng)意、與提示對齊的圖像,支持零樣本任務(wù)。DALL·E 2通過將CLIP集成到DALL·E中進(jìn)一步增強了它,采用兩階段過程:先生成低分辨率圖像,然后進(jìn)行超分辨率增強,大大提高了圖像質(zhì)量和多樣性。DALL·E 3通過增強文本編碼器和訓(xùn)練數(shù)據(jù)質(zhì)量進(jìn)一步改進(jìn)了圖像提示對齊。2024年,OpenAI發(fā)布了Sora,這是一個視頻生成模型,可以從文本提示創(chuàng)建長達(dá)60秒的高質(zhì)量連貫視頻。Sora利用編碼網(wǎng)絡(luò)將輸入轉(zhuǎn)換為離散標(biāo)記,利用大規(guī)模擴散模型優(yōu)化序列,并將去噪標(biāo)記投影回視頻空間。

視覺語言動作模型(VLA)

視覺語言動作模型(VLA)最近獲得了極大關(guān)注。其核心目標(biāo)是直接將多模態(tài)輸入映射到動作輸出,而不是通過分層決策制定的中間步驟,從而提高機器人的感知動作集成能力。VLA的概念最早由RT-2提出,它利用預(yù)訓(xùn)練的視覺語言模型將動作空間離散化為動作標(biāo)記,并通過互聯(lián)網(wǎng)數(shù)據(jù)和機器人數(shù)據(jù)的聯(lián)合微調(diào)實現(xiàn)泛化。然而,其離散動作設(shè)計和閉源性質(zhì)限制了其靈活性和進(jìn)一步研究。為了克服這些限制,出現(xiàn)了基于連續(xù)動作生成的VLA模型和開源VLA模型。最近的VLA模型研究進(jìn)一步解決了這些挑戰(zhàn)。BYO-VLA、3D-VLA、PointVLA處理視覺輸入處理。Octo和Diffusion-VLA解決了動作生成準(zhǔn)確性。TinyVLA和π0提高了計算效率。

大模型通用能力增強技術(shù)

大模型在推理能力、幻覺、計算成本和任務(wù)特異性方面仍然存在局限性。研究人員提出了一系列技術(shù)來增強其通用能力。

大模型賦能的具身智能:自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

                                        圖4:大模型的通用能力增強

上下文學(xué)習(xí)(ICL)

上下文學(xué)習(xí)使大模型能夠通過精心設(shè)計的提示實現(xiàn)零樣本泛化,使它們能夠在無需額外訓(xùn)練和調(diào)整的情況下解決新任務(wù)。利用輸入提示中的上下文,大模型可以理解任務(wù)要求并生成相關(guān)輸出,使其成為從自然語言處理到特定問題解決等應(yīng)用的通用工具。最近的進(jìn)展集中在優(yōu)化提示技術(shù)上,如自動提示生成和動態(tài)示例選擇,以增強ICL在不同領(lǐng)域的魯棒性。

思維鏈(XoT)

思維鏈?zhǔn)且幌盗型评砜蚣?,用于提高大模型解決數(shù)學(xué)、邏輯和開放性問題的能力。思維鏈(CoT)將中間推理步驟納入提示,引導(dǎo)大模型將復(fù)雜問題分解為可管理的部分。思維樹(ToT)通過探索樹狀結(jié)構(gòu)中的多個推理路徑擴展了CoT,允許大模型評估替代解決方案并在必要時回溯。思維圖(GoT)通過采用圖結(jié)構(gòu)進(jìn)一步推進(jìn)了ToT,其中節(jié)點表示中間狀態(tài),邊捕獲關(guān)系和依賴性,實現(xiàn)靈活的非線性推理。

檢索增強生成(RAG)

檢索增強生成從外部知識庫(如數(shù)據(jù)庫和網(wǎng)絡(luò)源)檢索相關(guān)信息,并將其提供給大模型以生成準(zhǔn)確響應(yīng)。RAG緩解了大模型知識過時或不完整的問題,確保訪問最新和特定領(lǐng)域的信息。最近的進(jìn)展包括結(jié)合密集和稀疏檢索方法的混合檢索機制,以平衡精度和效率,以及將檢索內(nèi)容與生成輸出有效對齊的微調(diào)策略。

推理與行動(ReAct)

推理與行動將推理與行動執(zhí)行集成,使模型在執(zhí)行任務(wù)時能夠產(chǎn)生明確的推理軌跡。通過要求大模型在行動之前闡述其思維過程,ReAct提高了決策透明度,并改善了動態(tài)交互環(huán)境中的性能。

人類反饋強化學(xué)習(xí)(RLHF)

人類反饋強化學(xué)習(xí)將人類偏好整合到大模型的訓(xùn)練中,使大模型與人類價值觀和意圖保持一致。利用人類反饋作為獎勵信號,RLHF提高了模型在動態(tài)交互環(huán)境中生成有幫助、無害和誠實輸出的能力。通過提示模型生成多個響應(yīng),RLHF允許人類根據(jù)質(zhì)量和安全性對其進(jìn)行排名或評分,并使用此反饋來優(yōu)化模型的未來生成,確保一致性和倫理考慮。

模型上下文協(xié)議(MCP)

模型上下文協(xié)議(MCP)是由Anthropic引入的開源標(biāo)準(zhǔn),為大模型與外部數(shù)據(jù)源、工具和服務(wù)交互提供了標(biāo)準(zhǔn)化接口。MCP增強了大模型的互操作性和適應(yīng)性,使其能夠與各種外部系統(tǒng)無縫集成。MCP的最新發(fā)展集中在擴展其與多模態(tài)輸入的兼容性以及優(yōu)化其在實時應(yīng)用中的性能。

大模型賦能具身智能的方法與技術(shù)

分層自主決策制定

智能體的自主決策制定旨在將環(huán)境感知和任務(wù)理解轉(zhuǎn)化為可執(zhí)行的決策和物理行動。傳統(tǒng)的決策制定采用分層范式,包括感知和交互、高層規(guī)劃、低層執(zhí)行以及反饋和增強。感知和交互層依賴于視覺模型,高層規(guī)劃層依賴于預(yù)定義的邏輯規(guī)則,低層執(zhí)行層依賴于經(jīng)典控制算法。這些方法在結(jié)構(gòu)化環(huán)境中表現(xiàn)出色,但由于缺乏整體優(yōu)化和高層決策能力,在非結(jié)構(gòu)化或動態(tài)環(huán)境中表現(xiàn)不佳。

大模型的進(jìn)步,憑借其強大的學(xué)習(xí)、推理和泛化能力,在復(fù)雜任務(wù)處理方面顯示出前景。通過將大模型的推理能力與物理實體的執(zhí)行能力相結(jié)合,為自主決策制定提供了新的范式。

大模型賦能的具身智能:自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

     圖5:分層決策制定范式,包括感知和交互、高層規(guī)劃、低層執(zhí)行、反饋和增強

高層規(guī)劃

高層規(guī)劃根據(jù)任務(wù)指令和感知信息產(chǎn)生合理的計劃。傳統(tǒng)的高層規(guī)劃依賴于基于規(guī)則的方法。給定在規(guī)劃領(lǐng)域定義語言(PDDL)中指定的初始狀態(tài)和目標(biāo),啟發(fā)式搜索規(guī)劃器驗證行動前提的可行性,并使用搜索樹選擇最優(yōu)行動序列,從而生成高效且經(jīng)濟的計劃。雖然在結(jié)構(gòu)化環(huán)境中有效,但基于規(guī)則的方法在非結(jié)構(gòu)化或動態(tài)場景中的適應(yīng)性較差。大模型利用其零樣本和少樣本泛化能力,在應(yīng)對這些挑戰(zhàn)方面推動了突破。根據(jù)規(guī)劃形式,大模型賦能的高層規(guī)劃可以分為結(jié)構(gòu)化語言規(guī)劃、自然語言規(guī)劃和編程語言規(guī)劃。

大模型賦能的具身智能:自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

                                       圖6:大模型賦能的高層規(guī)劃

結(jié)構(gòu)化語言規(guī)劃

大模型可以通過兩種關(guān)鍵策略增強結(jié)構(gòu)化語言規(guī)劃,如圖6(a)所示。(1) 第一種策略將大模型用作規(guī)劃器,利用其零/少樣本泛化能力生成計劃。然而,Valmeekam等人證明,由于嚴(yán)格的PDDL語法和語義,大模型經(jīng)常生成不可行的計劃,導(dǎo)致邏輯錯誤。為了緩解這個問題,LLV引入了一個外部驗證器,即PDDL解析器或環(huán)境模擬器,通過錯誤反饋檢查并迭代改進(jìn)大模型生成的計劃。FSP-LLM優(yōu)化了提示工程,使計劃與邏輯約束保持一致,確保任務(wù)的可行性。(2) 第二種策略利用大模型自動化PDDL生成,減少領(lǐng)域建模中的人工工作。在LLM+P中,大模型創(chuàng)建PDDL領(lǐng)域文件和問題描述,然后由傳統(tǒng)規(guī)劃器解決,結(jié)合了語言理解和符號推理。PDDL-WM使用大模型迭代構(gòu)建和完善PDDL領(lǐng)域模型,通過解析器和用戶反饋驗證,確保正確性和可執(zhí)行性。通過利用大模型作為直接規(guī)劃器或PDDL生成器,這些策略增強了自動化,減少了用戶參與,從而顯著提高了規(guī)劃效率、適應(yīng)性和可擴展性。

自然語言規(guī)劃

自然語言比結(jié)構(gòu)化語言提供了更大的表達(dá)靈活性,能夠充分利用大模型將復(fù)雜計劃分解為子計劃,如圖6(b)所示。然而,自然語言規(guī)劃通常產(chǎn)生不可行的計劃,因為其輸出通?;诮?jīng)驗而非實際環(huán)境。例如,當(dāng)指示"清理房間"時,大模型可能提出"取吸塵器",而沒有驗證其可用性。Zero-shot探索了使用大模型將高級任務(wù)分解為一系列可執(zhí)行語言規(guī)劃步驟的可行性。他們的實驗表明,大模型可以基于常識推理生成初步計劃,但缺乏對物理環(huán)境和行動可行性的約束。

為了解決這個問題,SayCAN將大模型與強化學(xué)習(xí)相結(jié)合,結(jié)合大模型生成的計劃與預(yù)定義的技能庫和價值函數(shù)來評估行動可行性。通過用預(yù)期累積獎勵對行動進(jìn)行評分,SayCAN過濾掉不切實際的步驟(如"跳到桌子上抓杯子"),而選擇更安全的高價值行動(如"移動到桌子并伸出手")。Text2Motion通過結(jié)合幾何可行性進(jìn)一步增強了涉及空間交互的任務(wù)規(guī)劃。它使用大模型提出候選行動序列,然后通過檢查器評估其物理可行性,以避免"將大盒子堆在小球上"等行動。然而,這兩種方法都依賴于固定的技能集,缺乏對開放任務(wù)的適應(yīng)性。Grounded Decoding通過引入靈活的解碼策略解決了這一限制。它動態(tài)地將大模型輸出與實時基礎(chǔ)模型集成,該模型根據(jù)當(dāng)前環(huán)境狀態(tài)和智能體能力評估行動可行性,引導(dǎo)大模型生成上下文可行的計劃。

編程語言規(guī)劃

編程語言規(guī)劃將自然語言指令轉(zhuǎn)換為可執(zhí)行程序,利用代碼的精確性定義空間關(guān)系、函數(shù)調(diào)用和控制API,以實現(xiàn)具身任務(wù)中的動態(tài)高層規(guī)劃,如圖6(c)所示。CaP將任務(wù)規(guī)劃轉(zhuǎn)換為代碼生成,生成具有遞歸定義函數(shù)的Python風(fēng)格程序,創(chuàng)建動態(tài)函數(shù)庫。例如,在機器人導(dǎo)航中,CaP首先定義"移動"函數(shù),然后根據(jù)任務(wù)要求將其擴展為"避障移動"或"接近目標(biāo)"。這種自擴展庫增強了對新任務(wù)的適應(yīng)性,無需預(yù)定義模板。然而,CaP對感知API的依賴和無約束的代碼生成限制了其處理復(fù)雜指令的能力。為了克服這些限制,Instruct2Act通過利用多模態(tài)基礎(chǔ)模型統(tǒng)一感知、規(guī)劃和控制,提供了更集成的解決方案。它使用視覺語言模型進(jìn)行準(zhǔn)確的對象識別和空間關(guān)系理解,提供精確的環(huán)境感知。然后將感知數(shù)據(jù)輸入大模型,該模型從預(yù)定義的機器人技能庫生成基于代碼的行動序列。這種方法顯著提高了規(guī)劃準(zhǔn)確性,使智能體能夠有效適應(yīng)新環(huán)境,特別是在具有顯著視覺組件的任務(wù)中。ProgPrompt采用結(jié)構(gòu)化提示,包括環(huán)境操作、對象描述和示例程序,指導(dǎo)大模型生成定制的基于代碼的計劃。通過結(jié)合預(yù)定義約束,ProgPrompt最小化了無效代碼生成,并增強了跨環(huán)境適應(yīng)性。

低層執(zhí)行

在高層任務(wù)規(guī)劃之后,使用預(yù)定義的技能列表執(zhí)行低層行動。技能列表表示具身智能體執(zhí)行特定任務(wù)所需的一系列基本能力或行動模塊。它們充當(dāng)任務(wù)規(guī)劃和物理執(zhí)行之間的橋梁。例如,感知相關(guān)技能包括對象識別和障礙物檢測,而運動相關(guān)技能包括對象抓取和移動。低層技能的實現(xiàn)涉及控制理論、機器學(xué)習(xí)和機器人工程。方法從傳統(tǒng)控制算法發(fā)展到學(xué)習(xí)驅(qū)動控制,再到模塊化控制。

大模型賦能的具身智能:自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

傳統(tǒng)控制算法

基礎(chǔ)技能通常使用傳統(tǒng)控制算法設(shè)計,主要利用具有明確數(shù)學(xué)推導(dǎo)和物理原理的經(jīng)典基于模型的技術(shù)。比例積分微分(PID)控制調(diào)整參數(shù)以最小化機器人臂關(guān)節(jié)控制中的誤差。狀態(tài)反饋控制通常與線性二次調(diào)節(jié)器(LQR)配對,利用系統(tǒng)狀態(tài)數(shù)據(jù)優(yōu)化性能。模型預(yù)測控制(MPC)通過滾動優(yōu)化預(yù)測狀態(tài)并生成控制序列,非常適合無人機路徑跟蹤等任務(wù)。傳統(tǒng)控制算法提供數(shù)學(xué)可解釋性、低計算復(fù)雜性和實時性能,實現(xiàn)可靠的任務(wù)執(zhí)行。然而,面對動態(tài)環(huán)境時,傳統(tǒng)控制算法缺乏適應(yīng)性,難以處理高維不確定的系統(tǒng)動力學(xué)。它們需要與數(shù)據(jù)驅(qū)動技術(shù)(如深度學(xué)習(xí)和強化學(xué)習(xí))集成,以增強泛化能力。例如,當(dāng)四足機器人在不平地形上導(dǎo)航時,傳統(tǒng)PID控制與學(xué)習(xí)算法協(xié)作,動態(tài)調(diào)整其步態(tài)。

大模型賦能的學(xué)習(xí)驅(qū)動控制

機器人學(xué)習(xí)位于機器學(xué)習(xí)和機器人的交叉點。它使智能體能夠從大量數(shù)據(jù)(包括人類演示、模擬和環(huán)境交互)中開發(fā)控制策略和低層技能。模仿學(xué)習(xí)和強化學(xué)習(xí)代表兩種重要的學(xué)習(xí)方法。模仿學(xué)習(xí)從專家演示中訓(xùn)練策略,實現(xiàn)快速策略開發(fā),減少探索時間。Embodied-GPT利用70億參數(shù)的語言模型進(jìn)行高層規(guī)劃,并通過模仿學(xué)習(xí)將計劃轉(zhuǎn)換為低層策略。強化學(xué)習(xí)通過迭代試驗和環(huán)境獎勵優(yōu)化策略,適用于高維動態(tài)環(huán)境。Hi-Core采用雙層框架,其中大模型設(shè)置高層策略和子目標(biāo),而強化學(xué)習(xí)在低層生成具體行動。這些大模型賦能的學(xué)習(xí)驅(qū)動控制方法提供了強大的適應(yīng)性和泛化能力。然而,它們的訓(xùn)練通常需要大量數(shù)據(jù)和計算資源,策略的收斂性和穩(wěn)定性難以保證。

大模型與預(yù)訓(xùn)練模型的模塊化控制

模塊化控制將大模型與預(yù)訓(xùn)練策略模型(如用于視覺識別的CLIP和用于分割的SAM)集成。通過為大模型提供這些工具的描述,可以在任務(wù)執(zhí)行期間動態(tài)調(diào)用它們。DEPS結(jié)合多個不同模塊,基于任務(wù)要求和預(yù)訓(xùn)練模型的自然語言描述完成檢測和行動。PaLM-E將大模型與用于分割和識別的視覺模塊合并。CLIPort利用CLIP進(jìn)行開放詞匯表檢測。一些研究利用大模型生成代碼來創(chuàng)建用于導(dǎo)航和操作的可調(diào)用函數(shù)庫。這種模塊化方法通過利用共享的預(yù)訓(xùn)練模型,確保了在不同任務(wù)中的可擴展性和可重用性。

然而,挑戰(zhàn)依然存在。首先,調(diào)用外部策略模型可能會引入額外的計算和通信延遲,特別是在實時任務(wù)(如自動駕駛)中,這種延遲可能顯著影響響應(yīng)效率。其次,智能體的整體性能高度依賴于預(yù)訓(xùn)練策略模型的質(zhì)量。如果策略模型存在缺陷(如泛化能力不足或訓(xùn)練數(shù)據(jù)偏差),即使大模型具有強大的規(guī)劃能力,執(zhí)行結(jié)果可能仍然不令人滿意。因此,優(yōu)化模塊之間的通信效率,提高策略模型的魯棒性,以及設(shè)計更智能的調(diào)用決策機制非常重要。

反饋與增強

分層決策制定架構(gòu)通過任務(wù)描述和示例提示指導(dǎo)任務(wù)規(guī)劃。為確保任務(wù)規(guī)劃質(zhì)量,應(yīng)引入閉環(huán)反饋機制。反饋可能來自大模型本身、人類和外部環(huán)境。

大模型賦能的具身智能:自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

                                               圖8:反饋與增強

大模型的自反思

大模型可以充當(dāng)任務(wù)規(guī)劃器、評估器和優(yōu)化器,從而在沒有外部干預(yù)的情況下迭代改進(jìn)決策過程。智能體獲得行動反饋,自主檢測和分析失敗的執(zhí)行,并從先前的任務(wù)中持續(xù)學(xué)習(xí)。通過這種自反思和優(yōu)化機制,大模型可以生成魯棒的策略,在長序列規(guī)劃、多模態(tài)任務(wù)和實時場景中具有優(yōu)勢。自反思可以通過兩種方式實現(xiàn),如圖8(a)所示。

(1) 第一種方法通過基于檢測到的執(zhí)行失敗或前提錯誤的重新提示觸發(fā)計劃重新生成。重新提示將錯誤上下文(如未能先開門就試圖打開門)作為反饋集成,動態(tài)調(diào)整提示從而糾正大模型生成的計劃。DEPS采用"描述、解釋、規(guī)劃、選擇"框架,其中大模型描述執(zhí)行過程,解釋失敗原因,并重新提示以糾正計劃缺陷,增強交互式規(guī)劃。

(2) 第二種方法采用內(nèi)省機制,使大模型能夠獨立評估和完善其輸出。Self-Refine使用單個大模型進(jìn)行規(guī)劃和優(yōu)化,通過多次自反饋循環(huán)迭代提高計劃合理性。Reflexion通過結(jié)合長期記憶來存儲評估結(jié)果,擴展了它,結(jié)合多種反饋機制增強計劃可行性。ISR-LLM在基于PDDL的規(guī)劃中應(yīng)用迭代自優(yōu)化,生成初始計劃,執(zhí)行合理性檢查,并通過自反饋完善結(jié)果。Voyager專為編程語言規(guī)劃量身定制,通過從執(zhí)行失敗中提取反饋構(gòu)建動態(tài)代碼技能庫,使智能體能夠適應(yīng)復(fù)雜任務(wù)。

人類反饋

人類反饋通過建立與人類的交互閉環(huán)機制來提高規(guī)劃準(zhǔn)確性和效率,如圖8(b)所示。這種方法使智能體能夠基于人類反饋動態(tài)調(diào)整行為。KNOWNO引入了一個不確定性測量框架,允許大模型識別知識缺口,并在高風(fēng)險或不確定情況下尋求人類幫助。EmbodiedGPT采用規(guī)劃-執(zhí)行-反饋循環(huán),當(dāng)?shù)蛯涌刂剖r,智能體請求人類輸入。這種人類反饋與強化學(xué)習(xí)和自監(jiān)督優(yōu)化相結(jié)合,使智能體能夠迭代改進(jìn)其規(guī)劃策略,確保更好地與動態(tài)環(huán)境條件保持一致。YAY Robot允許用戶用命令暫停機器人并提供指導(dǎo),促進(jìn)基于語言的實時糾正。反饋被記錄用于策略微調(diào)和定期查詢,實現(xiàn)實時和長期改進(jìn)。IRAP允許與人類進(jìn)行交互式問答,獲取任務(wù)特定知識,實現(xiàn)精確的機器人指令。

環(huán)境反饋

環(huán)境反饋通過與環(huán)境的動態(tài)交互增強基于大模型的規(guī)劃,如圖8(c)所示。InnerMonologue將多模態(tài)輸入轉(zhuǎn)換為語言描述,用于"內(nèi)心獨白"推理,允許大模型根據(jù)環(huán)境反饋調(diào)整計劃。TaPA集成開放詞匯表對象檢測,并為導(dǎo)航和操作定制計劃。DoReMi檢測計劃與實際結(jié)果之間的差異,并采取多模態(tài)反饋動態(tài)調(diào)整任務(wù)。在多智能體設(shè)置中,RoCo利用環(huán)境反饋和智能體間通信實時糾正機械臂路徑規(guī)劃。

基于大模型的規(guī)劃通常需要將反饋轉(zhuǎn)換為自然語言。VLM通過整合視覺輸入和語言推理簡化了這一過程,避免了反饋轉(zhuǎn)換。ViLaIn將大模型與VLM集成,從語言指令和場景觀察生成機器可讀的PDDL,以高精度驅(qū)動符號規(guī)劃器。ViLa和Octopus通過利用GPT4-V MLM生成計劃,實現(xiàn)機器人視覺語言規(guī)劃,整合感知數(shù)據(jù)以實現(xiàn)強大的零樣本推理。Voxposer進(jìn)一步利用MLM提取空間幾何信息,從機器人觀察生成3D坐標(biāo)和約束圖,以填充代碼參數(shù),從而提高規(guī)劃中的空間準(zhǔn)確性。

端到端自主決策制定

分層范式依賴于單獨的任務(wù)規(guī)劃、行動執(zhí)行和反饋模塊,因此存在錯誤累積問題,難以在不同任務(wù)間泛化。此外,從大模型中衍生的高級語義知識難以直接應(yīng)用于機器人動作執(zhí)行,導(dǎo)致集成差距。為了緩解這些挑戰(zhàn),端到端自主決策制定最近受到廣泛關(guān)注,它直接將多模態(tài)輸入(即視覺觀察和語言指令)映射到動作。它通常由VLA實現(xiàn)。

大模型賦能的具身智能:自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

圖9:VLA的端到端決策制定

視覺語言動作模型(VLA)

VLA模型通過將感知、語言理解、規(guī)劃、動作執(zhí)行和反饋優(yōu)化集成到一個統(tǒng)一框架中,代表了具身智能的突破。通過利用大模型的豐富先驗知識,VLA模型能夠在動態(tài)開放環(huán)境中實現(xiàn)精確和適應(yīng)性的任務(wù)執(zhí)行。典型的VLA模型包含三個關(guān)鍵組件:標(biāo)記化和表示、多模態(tài)信息融合和動作去標(biāo)記化。

大模型賦能的具身智能:自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

                                       圖10:視覺語言動作模型

標(biāo)記化和表示

VLA模型使用四種標(biāo)記類型:視覺、語言、狀態(tài)和動作,對多模態(tài)輸入進(jìn)行編碼,以實現(xiàn)上下文感知的動作生成。視覺標(biāo)記和語言標(biāo)記將環(huán)境場景和指令編碼為嵌入,形成任務(wù)和上下文的基礎(chǔ)。狀態(tài)標(biāo)記捕獲智能體的物理配置,包括關(guān)節(jié)位置、力矩、夾爪狀態(tài)、末端執(zhí)行器姿態(tài)和對象位置。動作標(biāo)記基于先前的標(biāo)記自回歸生成,表示低層控制信號(如關(guān)節(jié)角度、扭矩、輪速)或高層運動原語(如"移動到抓取姿態(tài)","旋轉(zhuǎn)手腕"),使VLA模型能夠充當(dāng)語言驅(qū)動的策略生成器。

多模態(tài)信息融合

視覺標(biāo)記、語言標(biāo)記和狀態(tài)標(biāo)記通過跨模態(tài)注意力機制融合到統(tǒng)一的嵌入中進(jìn)行決策,通常在transformer架構(gòu)內(nèi)實現(xiàn)。這種機制動態(tài)權(quán)衡每個模態(tài)的貢獻(xiàn),使VLA模型能夠基于任務(wù)上下文對對象語義、空間布局和物理約束進(jìn)行聯(lián)合推理。

動作去標(biāo)記化

融合的嵌入然后被傳遞到自回歸解碼器,通常在transformer架構(gòu)內(nèi)實現(xiàn),以生成一系列對應(yīng)于低層控制信號或高層運動原語的動作標(biāo)記。動作生成可以是離散的或連續(xù)的。在離散動作生成中,模型從預(yù)定義的動作集中選擇,如特定的運動原語或離散化的控制信號,這些信號被映射到可執(zhí)行命令。在連續(xù)動作生成中,模型輸出細(xì)粒度的控制信號,通常使用最終的MLP層從連續(xù)分布中采樣,實現(xiàn)精確的操作或?qū)Ш?。這些動作標(biāo)記通過將它們映射到可執(zhí)行控制命令來進(jìn)行去標(biāo)記化,這些命令被傳遞到執(zhí)行循環(huán)。循環(huán)反饋更新的狀態(tài)信息,使VLA模型能夠?qū)崟r適應(yīng)擾動、對象移動或遮擋。

機器人Transformer 2(RT-2)是一個著名的VLA模型。它利用Vision Transformer(ViT)進(jìn)行視覺處理,并利用PaLM整合視覺、語言和機器人狀態(tài)信息。特別地,RT-2將動作空間離散化為八個維度(包括6自由度末端執(zhí)行器位移、夾爪狀態(tài)和終止命令)。除了終止命令外,每個維度被劃分為256個離散間隔,從而將連續(xù)動作空間轉(zhuǎn)換為離散標(biāo)記序列。這種離散化使RT-2能夠利用大模型的文本生成能力進(jìn)行機器人控制,實現(xiàn)了前所未有的泛化能力。

具身學(xué)習(xí)方法

具身學(xué)習(xí)使智能體能夠通過長期環(huán)境交互自主完善其行為策略和認(rèn)知模型,實現(xiàn)持續(xù)改進(jìn)。它可以通過模仿學(xué)習(xí)從演示中獲取技能,通過強化學(xué)習(xí)在任務(wù)執(zhí)行過程中優(yōu)化技能。此外,世界模型也在提供智能體進(jìn)行試驗和積累經(jīng)驗的機會方面發(fā)揮著關(guān)鍵作用,通過模擬真實世界的推理空間。這些組件協(xié)同工作,增強具身智能體的能力,向AGI邁進(jìn)。

大模型賦能的模仿學(xué)習(xí)

模仿學(xué)習(xí)使智能體能夠從專家演示中獲取技能,實現(xiàn)快速策略開發(fā),減少探索時間。大模型通過以下方式增強模仿學(xué)習(xí):

  1. 策略網(wǎng)絡(luò)構(gòu)建:大模型可以構(gòu)建更強大的策略網(wǎng)絡(luò),從演示中學(xué)習(xí)復(fù)雜的技能。例如,Embodied-GPT利用70億參數(shù)的語言模型進(jìn)行高層規(guī)劃,并通過模仿學(xué)習(xí)將計劃轉(zhuǎn)換為低層策略。
  2. 演示數(shù)據(jù)增強:大模型可以生成或增強演示數(shù)據(jù),提供更多樣化和豐富的學(xué)習(xí)資源。例如,通過生成合成演示或擴展現(xiàn)有演示,大模型可以幫助智能體學(xué)習(xí)更廣泛的技能。
  3. 技能分解與組合:大模型可以將復(fù)雜任務(wù)分解為更簡單的子任務(wù),并學(xué)習(xí)如何組合這些子任務(wù)以解決復(fù)雜問題。這種分解和組合能力使智能體能夠更有效地學(xué)習(xí)復(fù)雜技能。

大模型賦能的強化學(xué)習(xí)

強化學(xué)習(xí)通過迭代試驗和環(huán)境獎勵優(yōu)化策略,適用于高維動態(tài)環(huán)境。大模型通過以下方式增強強化學(xué)習(xí):

  1. 獎勵函數(shù)設(shè)計:大模型可以幫助設(shè)計更復(fù)雜和語義豐富的獎勵函數(shù),指導(dǎo)智能體學(xué)習(xí)期望的行為。例如,大模型可以基于自然語言描述生成獎勵函數(shù),使獎勵信號更符合人類意圖。
  2. 策略網(wǎng)絡(luò)構(gòu)建:大模型可以構(gòu)建更強大的策略網(wǎng)絡(luò),實現(xiàn)更復(fù)雜的控制策略。例如,Hi-Core采用雙層框架,其中大模型設(shè)置高層策略和子目標(biāo),而強化學(xué)習(xí)在低層生成具體行動。
  3. 探索策略優(yōu)化:大模型可以指導(dǎo)智能體的探索過程,使其更有效地探索環(huán)境并發(fā)現(xiàn)最優(yōu)策略。例如,大模型可以基于當(dāng)前狀態(tài)和任務(wù)目標(biāo)生成探索建議,幫助智能體避免無效探索。

世界模型

世界模型在具身智能中扮演著關(guān)鍵角色,為智能體提供模擬真實世界推理空間的機會,使其能夠進(jìn)行試驗和積累經(jīng)驗。世界模型通過學(xué)習(xí)環(huán)境的動態(tài)和因果關(guān)系,使智能體能夠預(yù)測行動的結(jié)果,從而更有效地規(guī)劃和學(xué)習(xí)。

世界模型可以通過以下方式增強決策制定和學(xué)習(xí):

  1. 規(guī)劃增強:世界模型可以用于模擬不同行動的結(jié)果,幫助智能體選擇最佳行動序列。例如,智能體可以在世界模型中"預(yù)演"不同的計劃,評估其可能的結(jié)果,然后選擇最佳計劃在真實環(huán)境中執(zhí)行。
  2. 學(xué)習(xí)加速:世界模型可以提供額外的訓(xùn)練數(shù)據(jù),加速學(xué)習(xí)過程。例如,智能體可以在世界模型中進(jìn)行大量試驗,收集經(jīng)驗數(shù)據(jù),然后在真實環(huán)境中應(yīng)用學(xué)到的知識。
  3. 安全探索:世界模型可以用于評估潛在行動的風(fēng)險,避免在真實環(huán)境中執(zhí)行危險行動。例如,智能體可以在世界模型中測試可能危險的行動,評估其安全性,然后決定是否在真實環(huán)境中執(zhí)行。

方法比較與分析

分層決策制定與端到端決策制定的比較

分層決策制定和端到端決策制定各有優(yōu)勢和局限性,適用于不同的應(yīng)用場景。

大模型賦能的具身智能:自主決策和具身學(xué)習(xí)技術(shù)最新綜述-AI.x社區(qū)

分層決策制定的優(yōu)勢在于:

  1. 模塊化設(shè)計:將感知、規(guī)劃和執(zhí)行分離為不同模塊,使系統(tǒng)更易于理解和維護(hù)。
  2. 可解釋性:每個模塊的功能明確,便于理解和調(diào)試。
  3. 靈活性:可以單獨改進(jìn)或替換各個模塊,而不影響整個系統(tǒng)。

分層決策制定的局限性在于:

  1. 錯誤累積:各模塊之間的接口可能導(dǎo)致錯誤累積,影響整體性能。
  2. 集成挑戰(zhàn):高級語義知識與低層控制之間的集成可能存在困難。
  3. 泛化能力有限:在不同任務(wù)和環(huán)境之間的泛化能力可能有限。

端到端決策制定的優(yōu)勢在于:

  1. 無縫集成:將感知、規(guī)劃和執(zhí)行集成到一個統(tǒng)一框架中,避免了模塊間的接口問題。
  2. 端到端優(yōu)化:可以直接優(yōu)化從感知到行動的整個流程,實現(xiàn)更好的整體性能。
  3. 強泛化能力:通過聯(lián)合訓(xùn)練多模態(tài)數(shù)據(jù),可以實現(xiàn)更強的泛化能力。

端到端決策制定的局限性在于:

  1. 可解釋性差:內(nèi)部決策過程難以理解和解釋。
  2. 數(shù)據(jù)需求大:需要大量多樣化的訓(xùn)練數(shù)據(jù),可能難以獲取。
  3. 計算資源需求高:訓(xùn)練和推理可能需要大量計算資源。

不同學(xué)習(xí)方法的比較

模仿學(xué)習(xí)和強化學(xué)習(xí)是具身智能中兩種主要的學(xué)習(xí)方法,各有優(yōu)勢和適用場景。

模仿學(xué)習(xí)的優(yōu)勢在于:

  1. 學(xué)習(xí)效率高:從專家演示中直接學(xué)習(xí),避免了隨機探索的過程。
  2. 安全性高:學(xué)習(xí)過程不涉及與環(huán)境的大量交互,減少了安全風(fēng)險。
  3. 適用于復(fù)雜任務(wù):可以從人類專家那里學(xué)習(xí)復(fù)雜技能,無需顯式定義獎勵函數(shù)。

模仿學(xué)習(xí)的局限性在于:

  1. 演示數(shù)據(jù)依賴:需要高質(zhì)量的專家演示數(shù)據(jù),可能難以獲取。
  2. 泛化能力有限:可能難以泛化到與演示數(shù)據(jù)不同的場景。
  3. 缺乏探索:可能無法發(fā)現(xiàn)比演示更好的策略。

強化學(xué)習(xí)的優(yōu)勢在于:

  1. 自適應(yīng)性:通過與環(huán)境交互不斷改進(jìn)策略,適應(yīng)環(huán)境變化。
  2. 探索能力:可以發(fā)現(xiàn)比現(xiàn)有方法更好的策略。
  3. 無需演示數(shù)據(jù):不需要專家演示數(shù)據(jù),只需定義獎勵函數(shù)。

強化學(xué)習(xí)的局限性在于:

  1. 樣本效率低:通常需要大量與環(huán)境交互的數(shù)據(jù),學(xué)習(xí)過程可能很慢。
  2. 獎勵函數(shù)設(shè)計困難:設(shè)計合適的獎勵函數(shù)可能很困難,尤其是對于復(fù)雜任務(wù)。
  3. 安全風(fēng)險:在探索過程中可能執(zhí)行危險動作,存在安全風(fēng)險。

挑戰(zhàn)與未來方向

盡管大模型賦能的具身智能取得了顯著進(jìn)展,但仍面臨諸多挑戰(zhàn),這些挑戰(zhàn)也為未來的研究提供了方向。

當(dāng)前挑戰(zhàn)

  1. 泛化能力:雖然大模型展示了強大的泛化能力,但在具身智能中,智能體仍需要適應(yīng)各種新的環(huán)境和任務(wù),這對泛化能力提出了更高要求。
  2. 實時性:具身智能需要在實時環(huán)境中做出決策和行動,但大模型的計算復(fù)雜度高,可能難以滿足實時性要求。
  3. 安全性與可靠性:在物理世界中行動的智能體需要確保其行為的安全性和可靠性,避免造成傷害或損失。
  4. 多模態(tài)融合:有效融合視覺、語言、聽覺、觸覺等多種模態(tài)的信息,實現(xiàn)全面的環(huán)境理解,仍是一個挑戰(zhàn)。
  5. 長期學(xué)習(xí):實現(xiàn)智能體的持續(xù)學(xué)習(xí)和適應(yīng),使其能夠在長期運行中不斷改進(jìn),是一個重要挑戰(zhàn)。
  6. 能源效率:大模型和具身智能系統(tǒng)通常需要大量能源,提高能源效率對于實際應(yīng)用至關(guān)重要。

未來方向

  1. 更高效的模型架構(gòu):開發(fā)更高效的大模型架構(gòu),降低計算復(fù)雜度,提高實時性能,同時保持強大的能力。
  2. 更好的多模態(tài)融合:研究更有效的多模態(tài)融合方法,實現(xiàn)全面的環(huán)境理解和靈活的交互。
  3. 更強的安全保證:開發(fā)確保智能體行為安全可靠的方法,包括形式化驗證、安全監(jiān)控和應(yīng)急機制。
  4. 更智能的學(xué)習(xí)方法:研究更智能的學(xué)習(xí)方法,提高學(xué)習(xí)效率,減少對大量數(shù)據(jù)的依賴,實現(xiàn)更快速的知識獲取和技能掌握。
  5. 更真實的模擬環(huán)境:開發(fā)更真實的模擬環(huán)境,為智能體提供更好的訓(xùn)練和測試平臺,縮小模擬與真實世界之間的差距。
  6. 更緊密的人機協(xié)作:研究更緊密的人機協(xié)作方法,使人類和智能體能夠優(yōu)勢互補,共同解決復(fù)雜問題。

結(jié)論

大模型賦能的具身智能代表了人工智能領(lǐng)域的一個重要發(fā)展方向,通過將大模型的強大能力與物理實體相結(jié)合,實現(xiàn)更智能、更自主的系統(tǒng)。本文全面分析了大模型賦能的具身智能在決策制定和具身學(xué)習(xí)方面的最新進(jìn)展,包括分層決策制定、端到端決策制定、模仿學(xué)習(xí)、強化學(xué)習(xí)和世界模型等關(guān)鍵技術(shù)。

盡管取得了顯著進(jìn)展,但大模型賦能的具身智能仍面臨諸多挑戰(zhàn),包括泛化能力、實時性、安全性、多模態(tài)融合、長期學(xué)習(xí)和能源效率等方面。未來的研究將致力于解決這些挑戰(zhàn),推動具身智能向更高水平發(fā)展,最終實現(xiàn)通用人工智能的目標(biāo)。

隨著技術(shù)的不斷進(jìn)步,大模型賦能的具身智能將在機器人技術(shù)、自動駕駛、智能家居、醫(yī)療護(hù)理等領(lǐng)域發(fā)揮越來越重要的作用,為人類社會帶來深遠(yuǎn)的影響。我們期待看到更多創(chuàng)新的研究和應(yīng)用,推動這一領(lǐng)域向前發(fā)展。

??https://arxiv.org/pdf/2508.10399??

Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning

本文轉(zhuǎn)載自??AIGC深一度??,作者:一度


已于2025-9-4 09:34:26修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
精彩视频一区二区| 国产一区二区欧美| 亚洲永久免费av| 91久久中文字幕| 中文字幕人妻一区二| 成人在线视频国产| 亚洲国产三级在线| 日本不卡在线播放| 国产欧美综合视频| 国产精品magnet| 亚洲精品中文字幕av| 色七七在线观看| 麻豆av在线免费看| aa级大片欧美| 国产精品爽爽爽| 久久久免费看片| 99ri日韩精品视频| 狠狠躁夜夜躁人人爽超碰91| 偷拍视频一区二区| 亚洲av无码国产综合专区| 国产一区二区精品| www.欧美免费| 亚洲av网址在线| 久久久加勒比| 香蕉av福利精品导航| 日本中文不卡| www.xxx国产| 久久国产成人| 欧美国产日韩一区| а天堂中文在线资源| 国产成人精品福利| 欧美日韩在线播放三区四区| 日本熟妇人妻xxxx| 求av网址在线观看| 99久久er热在这里只有精品15| 2020国产精品视频| 婷婷久久综合网| av中文一区| 亚洲精品国产欧美| 亚洲免费在线播放视频| 欧美电影h版| 亚洲专区一二三| 免费成人深夜夜行网站视频| 青青草在线视频免费观看| 国产激情视频一区二区在线观看| 国产精品久久久久国产a级| 日韩黄色在线视频| 欧美1区2区3区| 最新国产精品拍自在线播放| 91中文字幕永久在线| 在线日韩成人| 欧美一区二区在线不卡| 国产精品人人妻人人爽人人牛| 黄色影院在线看| 成人免费在线观看入口| 欧美激情导航| 性高潮久久久久久久久久| 国产九色精品成人porny | 国产乱了高清露脸对白| 亚洲综合色婷婷在线观看| 欧美巨大另类极品videosbest| 亚洲人成无码www久久久| 91黄页在线观看| 亚洲成a人片在线不卡一二三区| 国产va亚洲va在线va| 国产色婷婷在线| 五月婷婷激情综合| 看av免费毛片手机播放| 欧美黑人疯狂性受xxxxx野外| 欧美性猛交xxxx富婆| 蜜臀视频一区二区三区| 久久久国产精品网站| 欧美一区二区黄色| 美女搡bbb又爽又猛又黄www| 久久porn| 一区二区三区视频在线| 中文字幕无码日韩专区免费| 欧美激情成人在线| 98视频在线噜噜噜国产| 黄色一级视频免费看| 麻豆一区二区99久久久久| 亚洲在线视频福利| 日韩一区二区三区不卡| 国产无人区一区二区三区| 亚洲在线不卡| 视频在线观看入口黄最新永久免费国产| 亚洲一区二区在线免费观看视频| 男人日女人逼逼| 高清av一区二区三区| 欧美一卡二卡三卡四卡| 无码精品一区二区三区在线播放 | 日韩成人av网址| 久久亚洲无码视频| 91精品国产自产在线观看永久∴| 久久久久久91| 日韩精品在线一区二区三区| 国产在线精品免费| 欧美成人第一区| 国产日产一区二区| 精品国产户外野外| 五月婷婷之婷婷| 日韩av影院| 久久伊人精品视频| 销魂美女一区二区| 国产原创一区二区| 日韩电影免费观看在| 午夜成年人在线免费视频| 色综合久久久久久久久久久| 欧美在线a视频| 精品欧美久久| 91国自产精品中文字幕亚洲| 国产一区二区三区中文字幕| 91蜜桃婷婷狠狠久久综合9色| 中文字幕久久一区| gay欧美网站| 精品国产乱码久久久久久老虎| www.av欧美| 亚洲激情不卡| 91高跟黑色丝袜呻吟在线观看| 黄色软件在线| 五月天网站亚洲| 亚洲综合123| 精品一区二区三区中文字幕老牛| 91高清在线免费观看| 精品人妻一区二区三区三区四区| 中文字幕不卡一区| 白嫩少妇丰满一区二区| 国产主播性色av福利精品一区| 久久九九亚洲综合| 亚洲国产无线乱码在线观看| 26uuu另类欧美亚洲曰本| cao在线观看| 中文字幕亚洲在线观看| 久久精品亚洲热| 最近中文字幕在线观看视频| 久久亚洲精品小早川怜子| 久久久久久久久久网| 亚洲视频国产| 成年无码av片在线| 国产丝袜视频在线观看| 亚洲女同一区二区| 亚洲综合123| 亚洲色图欧美| 亚洲一区二区三区视频播放| 国产cdts系列另类在线观看| 91精品国产高清一区二区三区| 羞羞在线观看视频| 久久精品国产秦先生| 亚洲精品一区二区三区四区五区 | 久久精品理论片| 日本一区二区三区视频免费看| 色偷偷偷在线视频播放| 亚洲精品乱码久久久久久按摩观| 国产午夜免费视频| 懂色av噜噜一区二区三区av| 日韩精品一区在线视频| 久久精品色综合| 2019av中文字幕| 九色在线免费| 欧美日韩五月天| 永久免费看片直接| 国内精品免费**视频| 免费成人进口网站| jizz性欧美23| 国产69精品久久久久久| 欧美日韩激情视频一区二区三区| 色综合久久久久综合体桃花网| 国产精品国产三级国产专业不 | 欧美日韩三级一区二区| 在线观看免费黄色网址| 国产在线播放一区三区四| 99久久99久久精品| 麻豆一区二区| 国产精品www色诱视频| 乱人伦中文视频在线| 91精品国产麻豆| 日本三级视频在线| 久久亚洲一级片| 天天干天天色天天干| 欧美福利电影在线观看| 国产精品三区四区| 欧美人体一区二区三区| www.国产精品一二区| www国产在线| 日韩欧美在线视频免费观看| 18精品爽国产三级网站| 国产成人av一区二区三区在线观看| 97视频在线免费| 九九热爱视频精品视频| 成人精品一区二区三区电影免费| 性直播体位视频在线观看| 日韩精品在线影院| 国产又大又黄的视频| 五月婷婷另类国产| 中文字幕第69页| 99精品国产91久久久久久| 午夜宅男在线视频| 1024成人| 日本精品免费视频| 国产精品一区二区av交换| 亚洲综合中文字幕在线| 肉色欧美久久久久久久免费看| 精品自在线视频| 8888四色奇米在线观看| 亚洲第一精品久久忘忧草社区| 中文字幕无码乱码人妻日韩精品| 香蕉av福利精品导航| 色偷偷男人天堂| 91网址在线看| 老女人性生活视频| 麻豆久久一区二区| 久久视频这里有精品| 亚洲a在线视频| 欧美成ee人免费视频| 日韩三级网址| 国产精品一二三在线| 在线看片福利| 欧美日韩第一页| 欧美一级二级三级区| 亚洲天堂久久av| 日本高清视频免费观看| 欧美精品第1页| 中文字幕在线天堂| 五月婷婷色综合| 久久国产露脸精品国产| 中文字幕亚洲不卡| 干b视频在线观看| 不卡的av网站| 性一交一黄一片| 国产精品69毛片高清亚洲| 尤物国产在线观看| 日韩av电影天堂| 午夜视频在线瓜伦| 香蕉av777xxx色综合一区| 极品粉嫩国产18尤物| 欧美精品99| 国产精品免费看久久久无码| 欧美高清视频手机在在线| 污视频在线免费观看一区二区三区 | 欧美做受xxxxxⅹ性视频| 99久久综合色| 捆绑凌虐一区二区三区| 粉嫩aⅴ一区二区三区四区| 超碰人人cao| 国产精品996| 苍井空张开腿实干12次| 国产91精品免费| 精品国产aⅴ一区二区三区东京热| 国产一区视频导航| www.久久com| 福利电影一区二区三区| 无码国产精品一区二区免费式直播 | 国产日韩精品视频| 欧美高清影院| 成人做爰www免费看视频网站| 亚洲影视资源| 成人高清在线观看| 成人福利免费在线观看| 国产亚洲一区二区三区在线播放| 青青草久久爱| 青青成人在线| 水蜜桃精品av一区二区| 宅男在线精品国产免费观看| 综合久久十次| 人妻夜夜添夜夜无码av | 在线观看国产中文字幕| 久久精品国产免费| 日本网站在线看| gogo大胆日本视频一区| 一二三不卡视频| 国产欧美日本一区视频| 97在线观看视频免费| 亚洲精选免费视频| 久久高清免费视频| 欧美性高潮在线| 91美女精品网站| 亚洲精品一区二区精华| 免费看男男www网站入口在线| 在线观看免费高清视频97| 黄色网址在线免费| 国语自产在线不卡| av在线一区不卡| 国产精品国产三级欧美二区| 外国成人在线视频| 制服国产精品| 日韩一区二区久久| 天天干天天爽天天射| 成人晚上爱看视频| 亚洲精品91在线| 亚洲一区在线免费观看| 久久久久亚洲视频| 欧美成人精品1314www| 国产在线一二三区| 精品综合久久久久久97| 日本精品裸体写真集在线观看| 91亚洲精品一区二区| 亚洲国产国产| 黄色一级大片免费| 日韩国产高清影视| 少妇伦子伦精品无吗| 国产人成亚洲第一网站在线播放| 日本高清一二三区| 91传媒视频在线播放| 朝桐光av在线一区二区三区| 国产亚洲精品美女久久久久| 欧美wwww| 成人福利视频网| 香蕉视频一区| 国产欧美久久久久| 裸体在线国模精品偷拍| 欧美 日本 国产| 一区二区三区**美女毛片| 中文字幕自拍偷拍| 日韩av在线看| 五月婷婷视频在线观看| 国产在线观看精品| 国产欧美日韩影院| 欧美三级一级片| www.日本不卡| 青青草原在线免费观看视频| 欧美三级日韩三级| 久久久久久女乱国产| 久久久伊人日本| 精品国模一区二区三区欧美| 日韩欧美一区二区三区四区五区| 亚洲免费精品| 亚洲精品久久一区二区三区777| 国产精品国产三级国产aⅴ中文| 亚洲婷婷综合网| 日韩国产精品视频| 123区在线| 国产一区二区精品免费| 欧美精品一线| 波多野结衣三级视频| 亚洲视频免费观看| 国产模特av私拍大尺度| xvideos亚洲人网站| 精品美女一区| 亚洲图片都市激情| 蜜桃视频在线一区| 日本污视频网站| 欧洲国产伦久久久久久久| 国产福利在线观看| 国产精品com| 成人在线免费观看视频| 欧美三级理论片| 136国产福利精品导航| 91在线视频国产| 中文字幕日韩av| 亚州精品国产| 永久免费网站视频在线观看| 国产美女久久久久| 久草视频免费播放| 亚洲第一视频网站| av资源在线播放| 农村寡妇一区二区三区| 日韩成人一级片| 波多野结衣喷潮| 欧美一区二区三区视频免费播放 | 亚洲免费av网站| 国产亲伦免费视频播放| 欧美高清视频在线观看| 国产精品115| 毛片一区二区三区四区| 久久精品男人的天堂| 中文字幕+乱码+中文乱码91| 久久视频在线看| 成人盗摄视频| 欧美日韩在线成人| 国产精品久久久久久久久搜平片 | 免费观看亚洲视频| 国产成人av资源| 黄色免费av网站| 日韩在线播放av| av成人资源网| 黄色三级视频片| 亚洲免费在线视频一区 二区| 丰满人妻一区二区三区免费| 97在线日本国产| 清纯唯美亚洲综合一区| avtt中文字幕| 欧洲另类一二三四区| 99在线视频观看| 看高清中日韩色视频| 久久99精品久久久久婷婷| 久操视频免费在线观看| 亚洲女同性videos| crdy在线观看欧美| 成人毛片视频网站| 中文字幕一区在线观看视频| 亚洲av综合色区无码一区爱av| 欧美一级淫片videoshd| 我不卡影院28| 国产精品三级在线观看无码| 欧美精选午夜久久久乱码6080| 999福利在线视频| 亚洲区一区二区三区| av在线这里只有精品| 亚洲无码久久久久| 5278欧美一区二区三区|