精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Meta最新!PARTNR:具身多智能體任務(wù)中規(guī)劃與推理的基準(zhǔn)測(cè)試框架

人工智能 新聞
PARTNR是一個(gè)針對(duì)多智能體實(shí)體任務(wù)中的推理與規(guī)劃基準(zhǔn),其特點(diǎn)是在60個(gè)模擬的多房間房屋中實(shí)例化了100,000項(xiàng)自然語言任務(wù),這些房屋中包含5,819個(gè)獨(dú)特物體。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面&出發(fā)點(diǎn)

本文提出了一個(gè)人機(jī)協(xié)作中的規(guī)劃與推理任務(wù)基準(zhǔn)(PARTNR),旨在研究家庭活動(dòng)中的人機(jī)協(xié)調(diào)。PARTNR任務(wù)展現(xiàn)了日常任務(wù)的特點(diǎn),如空間、時(shí)間和異構(gòu)agent能力約束。我們采用大型語言模型(LLMs)構(gòu)建了一個(gè)半自動(dòng)化的任務(wù)生成流程,并融入了循環(huán)中的模擬以進(jìn)行實(shí)現(xiàn)和驗(yàn)證。PARTNR是同類基準(zhǔn)中規(guī)模最大的,包含10萬個(gè)自然語言任務(wù),涉及60棟房屋和5819個(gè)獨(dú)特物品。圍繞規(guī)劃、感知和技能執(zhí)行等維度,對(duì)PARTNR任務(wù)上的最新大語言模型(SoTA)進(jìn)行了分析。分析結(jié)果顯示,SoTA模型存在顯著局限性,如協(xié)調(diào)性差、任務(wù)跟蹤失敗以及錯(cuò)誤恢復(fù)能力不足。當(dāng)大型語言模型與人類真實(shí)用戶配對(duì)時(shí),它們所需的步驟數(shù)是兩人協(xié)作的1.5倍,比單個(gè)人類多1.1倍,這凸顯了這些模型有待提升的潛力。論文還進(jìn)一步表明,使用規(guī)劃數(shù)據(jù)對(duì)較小的大型語言模型進(jìn)行微調(diào),可以實(shí)現(xiàn)與體積為其9倍的大型模型相當(dāng)?shù)男阅?,同時(shí)在推理速度上快8.6倍。PARTNR凸顯了協(xié)作式實(shí)體agents面臨的重大挑戰(zhàn),并旨在推動(dòng)該領(lǐng)域的研究發(fā)展。

Code: https://github.com/facebookresearch/partnr-planner

Website: https://aihabitat.org/partnr

內(nèi)容出自國內(nèi)首個(gè)具身智能全棧學(xué)習(xí)社區(qū):具身智能之心知識(shí)星球,這里包含所有你想要的。

一些介紹

想象這樣一個(gè)家用機(jī)器人:它能像人與人之間的互動(dòng)那樣,使用自然語言與人類在日常活動(dòng)中協(xié)作。這種場(chǎng)景需要兩個(gè)關(guān)鍵特性:機(jī)器人與人類之間的動(dòng)態(tài)協(xié)作,以及使用自然語言進(jìn)行交流。當(dāng)前具身人工智能(embodied AI)的基準(zhǔn)測(cè)試通常只滿足其中一個(gè)條件;要么機(jī)器人是獨(dú)立運(yùn)作的,要么任務(wù)不是用自然語言指定的。盡管具身人工智能領(lǐng)域取得了顯著進(jìn)展,但在評(píng)估機(jī)器人在協(xié)作環(huán)境中的表現(xiàn)的現(xiàn)實(shí)基準(zhǔn)測(cè)試方面仍存在空白。為了彌補(bǔ)這一空白,我們推出了人機(jī)協(xié)作中的規(guī)劃與推理任務(wù)基準(zhǔn)(PARTNR),這是一個(gè)新穎的基準(zhǔn)測(cè)試,用于評(píng)估具身人工智能agent在模擬室內(nèi)環(huán)境中與人類在各種家庭活動(dòng)上的協(xié)作能力。

PARTNR由10萬個(gè)自然語言指令和與之配套的評(píng)價(jià)函數(shù)組成,重點(diǎn)關(guān)注四種任務(wù)類型:(1)無約束任務(wù),其中子任務(wù)可以由任一agent以任何方式完成,(2)包含空間約束的空間任務(wù),(3)需要按順序執(zhí)行的時(shí)間任務(wù),以及(4)包含無法由其中一個(gè)agent完成的動(dòng)作的異構(gòu)任務(wù)。除了長時(shí)規(guī)劃、新型部分可觀察環(huán)境以及大狀態(tài)和動(dòng)作空間等傳統(tǒng)挑戰(zhàn)外,PARTNR還強(qiáng)調(diào)了有效協(xié)作動(dòng)態(tài)(如任務(wù)分配和跟蹤合作伙伴的進(jìn)度)的必要性。

創(chuàng)建這樣一個(gè)具有大規(guī)模自然語言任務(wù)和定制評(píng)價(jià)函數(shù)的基準(zhǔn)測(cè)試面臨著重大挑戰(zhàn)。當(dāng)前的基準(zhǔn)測(cè)試通常依賴于模板化任務(wù)或由人類設(shè)計(jì)的任務(wù)和評(píng)價(jià),這可能限制了數(shù)據(jù)集的多樣性或規(guī)模。為了克服這一問題,本文提出了一種使用大型語言模型(LLMs)并結(jié)合循環(huán)模擬接地(simulation-in-the-loop grounding)的半自動(dòng)化生成方法。首先,大型語言模型生成任務(wù)和評(píng)價(jià)函數(shù),這些函數(shù)與模擬房屋中的物品和家具相關(guān)聯(lián)。接下來,采用循環(huán)模擬來過濾掉幻覺和不可行的指令,并通過人工標(biāo)注來增強(qiáng)多樣性和準(zhǔn)確性。然后,利用一套經(jīng)過驗(yàn)證的1000條指令和評(píng)價(jià)函數(shù)以及多樣化的模擬房屋,通過上下文提示引導(dǎo)大型語言模型創(chuàng)建10萬個(gè)任務(wù)。

由于PARTNR包含自然語言任務(wù),且大型語言模型(LLMs)在規(guī)劃方面已展現(xiàn)出顯著成效,我們探索了如何提示和微調(diào)LLMs,以評(píng)估它們?cè)趨f(xié)作場(chǎng)景中的有效性。我們研究了環(huán)境可觀性(即完全可觀或部分可觀)、集中式與分散式多智能體控制、學(xué)習(xí)到的或特權(quán)機(jī)器人技能、以及基于LLMs的規(guī)劃中對(duì)3D世界信息進(jìn)行接地的不同方式的影響。除了這些使用合成人類伙伴進(jìn)行的自動(dòng)化評(píng)估外,還進(jìn)行了包含真實(shí)人類參與的評(píng)估,讓人們單獨(dú)執(zhí)行任務(wù)、與人類伙伴一起執(zhí)行任務(wù)或與LLMs指導(dǎo)的機(jī)器人伙伴一起執(zhí)行任務(wù)??傮w而言,發(fā)現(xiàn)LLMs在協(xié)調(diào)、任務(wù)跟蹤以及處理感知和技能錯(cuò)誤方面存在困難。雖然人類能夠解決93%的PARTNR任務(wù),但在非特權(quán)條件下,當(dāng)前最先進(jìn)(SoTA)的LLMs僅能成功完成30%的任務(wù)。此外,在分散式多智能體設(shè)置中,由于跟蹤伙伴動(dòng)作的能力較差,導(dǎo)致出現(xiàn)了多余動(dòng)作,完成任務(wù)所需的步驟比單智能體多1.3倍。相比之下,在我們的包含真實(shí)人類參與的實(shí)驗(yàn)中,人類搭檔的表現(xiàn)優(yōu)于單獨(dú)的人類,這凸顯了改進(jìn)LLMs協(xié)作策略的潛力。LLMs還難以從技能失敗和感知接地錯(cuò)誤中恢復(fù),當(dāng)移除特權(quán)技能和特權(quán)感知時(shí),其性能會(huì)降低。在比較模型大小時(shí),我們發(fā)現(xiàn)經(jīng)過微調(diào)的較小模型Llama3.1-8B的性能與未經(jīng)微調(diào)的Llama3.1-70B相當(dāng),但推理速度卻快了8.6倍。在與真實(shí)人類共同參與的評(píng)估中,這一更快的推理速度發(fā)揮了重要作用,因?yàn)榻?jīng)過微調(diào)的模型所需步驟更少,為人類分擔(dān)了更多任務(wù)。

PARTNR能夠在各種協(xié)作場(chǎng)景中實(shí)現(xiàn)對(duì)具身智能體的可重復(fù)、大規(guī)模和系統(tǒng)性的評(píng)估。通過系統(tǒng)性的評(píng)估,我們揭示了當(dāng)前基于LLM的規(guī)劃器的關(guān)鍵局限性,為未來的研究指明了有趣的方向。

相關(guān)工作一覽

基于語言的具身人工智能基準(zhǔn)測(cè)試。大量關(guān)于具身人工智能中語言基準(zhǔn)測(cè)試的工作都集中在導(dǎo)航或具身問答上,這些任務(wù)涉及導(dǎo)航和信息收集,但不需要智能體修改其環(huán)境。與本文的工作更為接近的是指令遵循基準(zhǔn)測(cè)試,在這些基準(zhǔn)測(cè)試中,智能體通過與環(huán)境的交互來完成通過語言描述的任務(wù),盡管任務(wù)的多樣性有限。相比之下,我們利用大型語言模型(LLMs)生成多樣化的任務(wù)定義和場(chǎng)景初始化,并將其擴(kuò)展到多智能體設(shè)置中。使用LLMs擴(kuò)大任務(wù)生成的規(guī)模這一想法在最近的一些工作中得到了探索。然而,這些工作往往側(cè)重于相對(duì)短期內(nèi)的單智能體任務(wù),而本文考慮的是長期的多智能體問題。表1將相關(guān)基準(zhǔn)測(cè)試與PARTNR進(jìn)行了比較。

圖片

具身多智能體基準(zhǔn)測(cè)試。多項(xiàng)工作已經(jīng)提出了具身多智能體基準(zhǔn)測(cè)試。其中許多基準(zhǔn)測(cè)試都集中在簡單2D環(huán)境中的協(xié)調(diào)問題上,這限制了它們?cè)诂F(xiàn)實(shí)世界場(chǎng)景中的應(yīng)用。最近的工作開發(fā)了研究更真實(shí)環(huán)境和活動(dòng)中協(xié)作的基準(zhǔn)測(cè)試,這些基準(zhǔn)測(cè)試關(guān)注在大型、部分可觀察的3D環(huán)境中重新排列物體或家具,或在柜臺(tái)空間內(nèi)操作物體。然而,這些基準(zhǔn)測(cè)試通常局限于一組預(yù)定義且數(shù)量有限的任務(wù),這些任務(wù)往往不是用自然語言描述的,并且主要涉及物體的重新排列。相比之下,PARTNR涵蓋了一個(gè)開放的任務(wù)集,每個(gè)任務(wù)都用自然語言描述,要求智能體在空間和時(shí)間的約束下重新排列物體,并要求執(zhí)行只能由人類智能體完成的異構(gòu)動(dòng)作(例如洗碗或打開烤箱)。

Benchmark生成

我們推出了PARTNR基準(zhǔn)測(cè)試,旨在訓(xùn)練和評(píng)估機(jī)器人與人類合作解決自然語言任務(wù)的能力。PARTNR涵蓋了四種類型的任務(wù):(1)無約束任務(wù),即子任務(wù)可以由任一智能體以任何方式完成。例如,“讓我們把所有臟盤子移到水槽里?!保?)空間任務(wù),需要推理物體的空間位置。例如,“讓我們把書放在書架上,彼此緊挨著。”(3)時(shí)間任務(wù),子任務(wù)的執(zhí)行順序很重要。例如,“讓我們先把餐桌上的蠟燭拿走,再把盤子端到桌上?!保?)異構(gòu)任務(wù),涉及超出機(jī)器人能力的動(dòng)作。例如,“讓我們?cè)诎驯P子放到架子上之前先把它們洗干凈。”在機(jī)器人的技能不支持洗滌的場(chǎng)景中,完成這項(xiàng)任務(wù)需要對(duì)智能體的能力進(jìn)行推理。我們的基準(zhǔn)測(cè)試包括自然語言指令和相應(yīng)的評(píng)估函數(shù),這兩者都是使用大型語言模型(LLMs)大規(guī)模生成的。具體來說,我們生成了1000條經(jīng)過人工驗(yàn)證的指令和相應(yīng)的評(píng)估函數(shù),并將它們作為即時(shí)提示示例,擴(kuò)展到其他具有不同布局和物體的場(chǎng)景中的100000項(xiàng)任務(wù)。我們自動(dòng)生成的一個(gè)獨(dú)特之處在于,在生成循環(huán)中整合了一個(gè)實(shí)體模擬器,這大大減少了大型語言模型可能出現(xiàn)的幻覺和不可行動(dòng)作等錯(cuò)誤。

圖片

1 基于仿真循環(huán)的任務(wù)指令生成

盡管基于大型語言模型(LLM)的任務(wù)生成在之前的文獻(xiàn)中已有研究,但這些生成的任務(wù)并未超出用戶創(chuàng)建的 in-context prompts的范圍。在PARTNR中,使用了基于仿真循環(huán)的生成技術(shù),將大語言模型與環(huán)境、智能體和可用動(dòng)作相結(jié)合。具體來說,在Habitat 3.0模擬器中實(shí)例化了一個(gè)仿真環(huán)境,該環(huán)境填充了HSSD數(shù)據(jù)集,包含60棟獨(dú)特的房屋和5819個(gè)OVMM對(duì)象。模擬房屋被解析為房間和可用家具的列表,并與所有可用目標(biāo)一起傳遞給大語言模型。利用這些信息,要求大語言模型在場(chǎng)景中生成自由形式、可行的任務(wù),以及初始場(chǎng)景狀態(tài)描述。例如,如果生成的任務(wù)是“清理客廳的餐具”,大型語言模型應(yīng)該生成一個(gè)客廳內(nèi)有多個(gè)餐具的初始場(chǎng)景。在這個(gè)階段,還會(huì)向場(chǎng)景中添加額外的目標(biāo),以在環(huán)境中制造混亂。任務(wù)、初始狀態(tài)和混亂一旦生成,就會(huì)在模擬器中實(shí)例化,并過濾掉不可行的指令。例如,如果房屋沒有客廳,“清理客廳的餐具”就是無效的。同樣,如果生成的任務(wù)需要模擬器不支持的動(dòng)作,如折疊,則該任務(wù)會(huì)被過濾掉。通常,幻覺的產(chǎn)生率很高,導(dǎo)致大量情節(jié)被丟棄。我們觀察到,在過濾掉不可行的指令后,生成指令的多樣性通常受到限制。例如,大多數(shù)指令都使用相同的對(duì)象(如餐具)或類似的房間(如廚房或餐廳)。為了增加生成任務(wù)的多樣性,我們進(jìn)行了手動(dòng)標(biāo)注,以確保任務(wù)和對(duì)象的多樣性,例如,通過修改指令以激發(fā)特定特征,來維持無約束、空間、時(shí)間和異構(gòu)任務(wù)的平衡分布。這一過程產(chǎn)生了1000個(gè)經(jīng)過人工標(biāo)注和仿真驗(yàn)證的任務(wù)。

圖片

對(duì)于大規(guī)模生成而言,這種手動(dòng)標(biāo)注并不實(shí)際。相反,我們利用這1000條經(jīng)過人工標(biāo)注的指令作為提示中的示例,來擴(kuò)展生成規(guī)模。向大語言模型提供房屋描述和一個(gè)示例任務(wù),并指示它修改任務(wù)以適應(yīng)新的房屋。例如,將任務(wù)“清理客廳里的所有餐具”修改為“清理臥室里的所有玩具”。這樣做可以在保持原始標(biāo)注指令集多樣性的同時(shí),確保在模擬器中成功實(shí)例化的高可能性。從質(zhì)量上看,我們過濾或編輯了約90%的自由形式生成的指令,而只有約10%的擴(kuò)展指令需要這樣做。使用LLama3-70B-Instruct來生成所有指令。最后,所有任務(wù)都經(jīng)過基于人類反饋的循環(huán)過濾。在這一步中,人類使用我們的基于人類反饋的工具嘗試完成任務(wù),并消除難以檢測(cè)的物理上不可行的指令,比如要求一個(gè)物體同時(shí)出現(xiàn)在兩個(gè)位置。圖2概述了我們的流程。

2 評(píng)價(jià)函數(shù)生成

為了判斷智能體是否成功完成了指令“清理客廳里的所有餐具”,我們需要一個(gè)評(píng)價(jià)函數(shù)來驗(yàn)證是否已從任何客廳中移除了所有勺子、叉子和其他餐具。然而,手動(dòng)標(biāo)注任務(wù)所需的所有重新排列和狀態(tài)變化既耗時(shí)又由于每個(gè)任務(wù)的獨(dú)特性而在大規(guī)模上難以實(shí)現(xiàn)。與指令生成類似,我們采用大型語言模型(LLM)來創(chuàng)建一個(gè)評(píng)價(jià)函數(shù),該函數(shù)無需任何手動(dòng)標(biāo)注即可評(píng)估任務(wù)完成情況。具體來說,利用大型語言模型生成基于謂詞的Python程序的能力,這需要使用三種類型的API:一個(gè)命題列表,指示實(shí)體之間必須滿足的關(guān)系;一組依賴項(xiàng),指示何時(shí)應(yīng)查詢命題;以及一組約束,指示命題必須如何滿足。為這些組件中的每一個(gè)定義了一個(gè)富有表達(dá)力的詞匯,以便對(duì)基準(zhǔn)測(cè)試中的所有任務(wù)進(jìn)行評(píng)估(例如,圖3)。密切相關(guān)的評(píng)價(jià)系統(tǒng)包括使用PDDL或BDDL定義任務(wù)。選擇構(gòu)建一個(gè)新的基于Python的評(píng)價(jià)系統(tǒng),因?yàn)檫@兩個(gè)系統(tǒng)都無法在保持人類和大型語言模型可解釋性的同時(shí)評(píng)估PARTNR任務(wù);例如,BDDL不支持隨時(shí)間變化的評(píng)估。由于PARTNR任務(wù)具有時(shí)間依賴性(例如,多步驟重新排列),因此評(píng)價(jià)函數(shù)的輸入是任務(wù)執(zhí)行期間模擬器狀態(tài)的完整序列。評(píng)價(jià)函數(shù)返回三個(gè)指標(biāo):(1)完成百分比(PC ∈ [0, 1]),即相對(duì)于約束而言已滿足的命題的百分比;(2)成功(S ∈ {True, False}),衡量任務(wù)是否成功完成,定義為S := (PC = 1);以及(3)失敗解釋(FE),一種人類和大型語言模型可解釋的語言描述,用于說明智能體未能完成任務(wù)的原因。

使用CodeLLama-70B-instruct來生成評(píng)價(jià)函數(shù)。如圖3所示,生成完美的評(píng)價(jià)函數(shù)并非易事。大型語言模型(LLM)必須根據(jù)自然語言指令和特定的模擬環(huán)境,正確分類所有可能的動(dòng)作空間,這可能相當(dāng)復(fù)雜。例如,在圖3中,指令“把植物放在架子上”指的是“架子”,但房間里有兩個(gè)架子。評(píng)價(jià)函數(shù)必須允許選擇任意一個(gè)架子,同時(shí)要求放置所有植物,并最終考慮相鄰關(guān)系。命題或約束中的任何錯(cuò)誤或缺失值都會(huì)導(dǎo)致評(píng)價(jià)函數(shù)失效。因此,我們觀察到LLM生成的錯(cuò)誤率很高,特別是關(guān)于錯(cuò)誤命題和時(shí)間順序約束的錯(cuò)誤。

為了減輕這些不準(zhǔn)確性,遵循與指令生成相似的半自動(dòng)化程序。首先為1000條人工標(biāo)注的指令生成評(píng)價(jià)函數(shù),并進(jìn)行手動(dòng)標(biāo)注以進(jìn)行修正。這產(chǎn)生了包含1000對(duì)經(jīng)過人工驗(yàn)證的指令和評(píng)價(jià)函數(shù)的數(shù)據(jù)集。接下來,為擴(kuò)展的100000條指令集生成評(píng)價(jià)。請(qǐng)注意,擴(kuò)展指令是通過向LLM提供標(biāo)注集中的示例指令來生成的。我們檢索相應(yīng)的標(biāo)注評(píng)價(jià)函數(shù),并將其提供給LLM。這與檢索增強(qiáng)生成等方法類似,并通過人工檢查發(fā)現(xiàn),將評(píng)價(jià)函數(shù)生成的準(zhǔn)確率從50%提高到92%。最后一步是,要求人類用戶使用我們基于人類反饋的評(píng)價(jià)工具解決所有PARTNR任務(wù)。所有在人類用戶6次嘗試(3次單人嘗試,3次多人嘗試)后仍未解決的任務(wù)都被視為不可行,并從數(shù)據(jù)集中刪除。我們發(fā)現(xiàn),自動(dòng)化生成的指令中約有90%準(zhǔn)確,評(píng)價(jià)函數(shù)中約有92%準(zhǔn)確,綜合生成準(zhǔn)確率為90% × 92% = 83%。

3 PARTNR Dataset

PARTNR數(shù)據(jù)集由來自HSSD數(shù)據(jù)集的37個(gè)訓(xùn)練場(chǎng)景中的100,000個(gè)片段、13個(gè)驗(yàn)證場(chǎng)景中的1,000個(gè)片段和10個(gè)測(cè)試場(chǎng)景中的1,000個(gè)片段組成。在擴(kuò)展生成后,所有驗(yàn)證集和測(cè)試集的片段都經(jīng)過了人工標(biāo)注以確保正確性,同時(shí)訓(xùn)練集的一個(gè)包含2,000個(gè)片段的子集也進(jìn)行了人工標(biāo)注。關(guān)于擴(kuò)展生成片段的正確性分析。下面分析下該數(shù)據(jù)集的特點(diǎn)和多樣性。

特點(diǎn):如前所述,PARTNR數(shù)據(jù)集側(cè)重于四種任務(wù)類型:無約束、空間、時(shí)間和異構(gòu)。在圖4中展示了這些任務(wù)類型在測(cè)試集中的分布情況;驗(yàn)證集的分布情況與之相似。PARTNR數(shù)據(jù)集在這些維度上獨(dú)立且聯(lián)合地評(píng)估協(xié)作。其他值得關(guān)注的特性包括依賴重排(例如,“把它們放在同一張桌子上”)和同一對(duì)象的多步重排(例如,“把杯子拿到水槽邊,洗干凈,然后放進(jìn)櫥柜里”)。7%的任務(wù)包含依賴重排,6%的任務(wù)包含多步重排。任務(wù)平均需要滿足4.7個(gè)命題(表明完成任務(wù)所需的步驟數(shù)量)。

圖片

多樣性:PARTNR數(shù)據(jù)集中任務(wù)的多樣性在很大程度上得益于循環(huán)模擬生成,該生成方法利用了豐富的HSSD場(chǎng)景和OVMM對(duì)象集。因此,PARTNR數(shù)據(jù)集中的任務(wù)涉及并需要對(duì)155種獨(dú)特對(duì)象類型、20類家具和13種房型進(jìn)行推理。請(qǐng)注意,每條指令在每個(gè)房屋中的實(shí)例化都帶來了其自身的多樣性。例如,“把筆記本電腦搬到辦公桌上”,這條指令在每個(gè)房屋中都獨(dú)特地指定了辦公室和桌子的位置,以及不同指令中不同的筆記本電腦實(shí)例。

實(shí)驗(yàn)和分析

我們利用PARTNR探究了最先進(jìn)的規(guī)劃和感知方法如何在新環(huán)境中處理自然語言任務(wù),以及如何與未見過的伙伴進(jìn)行協(xié)調(diào)。由于PARTNR包含由語言指定的各種時(shí)空任務(wù),這里主要在基線中使用大型語言模型(LLMs)進(jìn)行規(guī)劃,并研究了以下變體:(1)零樣本提示、檢索增強(qiáng)生成或微調(diào),(2)集中式規(guī)劃與分散式規(guī)劃,(3)部分可觀察環(huán)境與完全可觀察環(huán)境,(4)學(xué)習(xí)得到的低級(jí)機(jī)器人技能與理想的低級(jí)機(jī)器人技能,以及(5)特權(quán)感知與非特權(quán)感知。

圖片

實(shí)驗(yàn)是在Habitat 3.0模擬器中進(jìn)行的,使用了模擬的Spot機(jī)器人。我們?yōu)闄C(jī)器人和模擬人類采用了一種兩層分級(jí)控制架構(gòu),如圖5所示。在高層級(jí)上,規(guī)劃器從預(yù)定義的技能庫(例如,導(dǎo)航、拾取、放置、打開、關(guān)閉)中選擇技能。我們還使用了一個(gè)具有三層層次結(jié)構(gòu)的文本世界圖,分別表示房間、家具和可移動(dòng)物體。圖中的每個(gè)節(jié)點(diǎn)都存儲(chǔ)了一個(gè)語義類別(例如,廚房、桌子或杯子)、三維信息(例如,位置或邊界框)和狀態(tài)(例如,干凈、已通電)。

1 Baselines

我們按照以下維度對(duì)基線進(jìn)行評(píng)估:

1.高級(jí)規(guī)劃器的變體:

  • 啟發(fā)式專家:這種方法利用專家設(shè)計(jì)的啟發(fā)式方法和關(guān)于任務(wù)、環(huán)境和評(píng)估函數(shù)的特權(quán)信息,基于人類和機(jī)器人的能力預(yù)先規(guī)劃所有步驟。例如,兩個(gè)agent都可能重新排列物體,但只有人類執(zhí)行清潔、填充和開關(guān)任務(wù)。
  • 零樣本ReAct(ReAct):使用ReAct及其API函數(shù)庫或工具庫,使大語言模型(LLM)能夠執(zhí)行動(dòng)作。作為觀察,向LLM提供簡潔、當(dāng)前的世界圖描述以及動(dòng)作歷史。LLM利用這些信息從[探索房間、導(dǎo)航、打開家具、關(guān)閉家具、拾取物體、放置物體、等待、完成]中為機(jī)器人選擇一個(gè)動(dòng)作。
  • 帶有檢索增強(qiáng)生成(RAG)的ReAct(ReAct-RAG):還評(píng)估了帶有RAG的ReAct,以研究在類似任務(wù)上的規(guī)劃示例是否能提高ReAct的性能。通過從ReAct在2000個(gè)任務(wù)訓(xùn)練子集中的成功軌跡中收集數(shù)據(jù),構(gòu)建了一個(gè)規(guī)劃示例數(shù)據(jù)庫。在測(cè)試時(shí),基于句子相似性從訓(xùn)練數(shù)據(jù)集中選擇最相關(guān)的規(guī)劃軌跡,并將其添加到LLM的提示中。
  • 微調(diào)后的LLM(Finetuned):本文還研究了使用ReAct基線中成功的軌跡來微調(diào)一個(gè)較小的LLM(Llama3.1-8B)作為高級(jí)規(guī)劃器,這些基線使用Llama3.1-70B。這里使用React-RAG數(shù)據(jù)集,將每個(gè)片段拆分為一系列高級(jí)規(guī)劃動(dòng)作,僅篩選成功執(zhí)行的動(dòng)作。對(duì)于每個(gè)動(dòng)作,構(gòu)建一個(gè)包含世界圖和動(dòng)作歷史的輸入,類似于ReAct。然后使用低秩適配器微調(diào)一個(gè)LLM,以在給定此輸入的情況下從ReAct片段中預(yù)測(cè)動(dòng)作。該模型降低了延遲和計(jì)算需求,適合現(xiàn)實(shí)世界中的部署。

所有模型生成都受到約束生成的限制,僅輸出對(duì)觀察到的對(duì)象有效的動(dòng)作。約束生成極大地減少了LLM典型的幻覺和“語法”錯(cuò)誤。當(dāng)兩個(gè)agent都調(diào)用Done或達(dá)到最大模擬步驟或LLM調(diào)用時(shí),一個(gè)片段即結(jié)束。

  1. 集中式與分散式規(guī)劃:

為了研究多agent PARTNR任務(wù)中協(xié)調(diào)的開銷,這里比較了集中式規(guī)劃器和分散式規(guī)劃器。在集中式規(guī)劃中,單個(gè)大型語言模型(LLM)根據(jù)兩個(gè)agent的完整狀態(tài)信息為它們決定動(dòng)作,從而有效地消除了agent之間的任何協(xié)調(diào)需求。在分散式規(guī)劃中,每個(gè)agent由不同的LLM控制,每個(gè)LLM都需要推斷另一個(gè)agent的動(dòng)作。

  1. 部分可觀察與完全可觀察:

為了評(píng)估當(dāng)前最先進(jìn)(SoTA)的語言模型是否能夠探索新環(huán)境并識(shí)別與任務(wù)相關(guān)的對(duì)象,考慮了一個(gè)部分可觀察的設(shè)置,其中規(guī)劃器知道房屋的布局但不知道目標(biāo)的位置,因此需要探索。這與完全可觀察的設(shè)置形成對(duì)比,在完全可觀察的設(shè)置中,所有目標(biāo)的位置都是事先已知的。

  1. 學(xué)習(xí)到的與先知低級(jí)別機(jī)器人技能:

本文研究了學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò)技能與先知技能(具有特權(quán)模擬信息)對(duì)PARTNR任務(wù)整體性能的影響。這里為拾取、放置、導(dǎo)航、打開和關(guān)閉動(dòng)作創(chuàng)建了一個(gè)學(xué)習(xí)到的技能庫,并與先知技能進(jìn)行了性能比較。

  1. 特權(quán)與非特權(quán)感知:

為了研究諸如檢測(cè)不準(zhǔn)確和定位近似等感知挑戰(zhàn),使用了帶有修改后的ConceptGraphs的非特權(quán)世界圖,該圖僅根據(jù)agent的RGBD觀測(cè)結(jié)果構(gòu)建。隨著agent的探索和動(dòng)作,這個(gè)世界圖將使用機(jī)載傳感器進(jìn)行更新。相比之下,在特權(quán)感知下,這些信息可以直接從模擬中獲取。

2 Results and Analysis

指標(biāo)。使用四個(gè)關(guān)鍵指標(biāo)來評(píng)估不同設(shè)置下的性能。首先,模擬步數(shù)指標(biāo)衡量了agent在模擬環(huán)境中完成任務(wù)所需的步數(shù),作為效率的一個(gè)指標(biāo)。其次,成功率反映了任務(wù)的完成情況,即是否滿足“所有”任務(wù)約束。鑒于PARTNR任務(wù)的復(fù)雜性和長期性,agent通常只能部分完成任務(wù)。為了考慮這一點(diǎn),還報(bào)告了完成百分比,它量化了已完成任務(wù)“命題”的比例(對(duì)于成功的任務(wù),完成百分比為1)。最后,我們通過規(guī)劃周期指標(biāo)來評(píng)估規(guī)劃器的推理效率,該指標(biāo)計(jì)算每個(gè)規(guī)劃器在一個(gè)情節(jié)過程中進(jìn)行的高級(jí)大型語言模型(LLM)調(diào)用的次數(shù)。在所有實(shí)驗(yàn)中,將規(guī)劃器的最大調(diào)用次數(shù)限制在50次以內(nèi)。

任務(wù)性能分析

表2展示了使用Llama3.1-70B-Instruct模型作為ReAct基線,以及使用微調(diào)后的Llama3.1-8B基礎(chǔ)模型作為微調(diào)基線。由于PARTNR任務(wù)是多agent任務(wù),還需要一個(gè)模擬的人類伙伴,使用Llama3.1-70B-Instruct模型并通過ReAct方法對(duì)其進(jìn)行控制。主要發(fā)現(xiàn)如下所述。

圖片

基于LLM的規(guī)劃器在處理PARTNR任務(wù)時(shí)面臨挑戰(zhàn)。在所有可觀察性和可控性條件下,基于LLM的基線性能均不如具有特權(quán)的啟發(fā)式專家,原因是任務(wù)跟蹤中出現(xiàn)錯(cuò)誤(未完成所有步驟、步驟順序錯(cuò)誤或撤銷已完成的步驟),以及語義錯(cuò)誤(將對(duì)象放置在錯(cuò)誤的家具上或移動(dòng)錯(cuò)誤的對(duì)象),這表明LLM在任務(wù)規(guī)劃方面存在差距。

LLM在分散式設(shè)置中的協(xié)調(diào)方面表現(xiàn)不佳。沒有特權(quán)訪問伙伴意圖的分散式ReAct基線在任務(wù)完成速度上顯著慢于集中式ReAct。這表明,對(duì)伙伴進(jìn)行推理(例如,了解或推斷伙伴的意圖)可以提高PARTNR任務(wù)的效率,而當(dāng)前最先進(jìn)的LLM在這方面表現(xiàn)不佳。此外,有兩個(gè)agent的分散式ReAct甚至慢于單個(gè)agent的ReAct(行(e)中的多agent需要3295步,而行(a)中的單agent需要2519步),這表明LLM在協(xié)調(diào)方面承受著巨大的“負(fù)擔(dān)”。在4.2.2節(jié)關(guān)于額外努力的分析中,我們進(jìn)一步強(qiáng)調(diào)了這種協(xié)調(diào)負(fù)擔(dān),我們發(fā)現(xiàn),在分散式設(shè)置中,agent最終會(huì)更高頻率地重復(fù)任務(wù)的部分內(nèi)容或執(zhí)行不相關(guān)的動(dòng)作。

LLM(大型語言模型)無法從已學(xué)習(xí)技能的失敗中恢復(fù)。當(dāng)用已學(xué)習(xí)技能替換Oracle技能時(shí),成功率從0.73下降到0.57(行(e)對(duì)比行(h))。這種下降可以歸因于,與具有特權(quán)的Oracle技能相比,已學(xué)習(xí)技能的失敗率更高,且所需的模擬步驟更多。LLM在應(yīng)對(duì)技能錯(cuò)誤(如未能拾取物體或執(zhí)行不完整的探索)時(shí)難以恢復(fù),從而導(dǎo)致成功率降低。未來的研究可以探索訓(xùn)練包含低級(jí)技能循環(huán)的大型模型,使它們能夠在面對(duì)此類失敗時(shí)學(xué)習(xí)恢復(fù)和重新規(guī)劃策略。

LLM對(duì)感知錯(cuò)誤表現(xiàn)出高度敏感性。當(dāng)用現(xiàn)成的感知模塊替換具有特權(quán)的感知時(shí),成功率顯著下降(從行(h)中具有特權(quán)、部分世界圖的0.57下降到行(i)中使用Concept-Graphs的0.30)。LLM嚴(yán)重依賴世界圖提供的準(zhǔn)確世界描述,并且難以糾正諸如誤分類(例如,將架子誤認(rèn)為是桌子)或房間分配錯(cuò)誤(例如,將客廳的桌子錯(cuò)誤地標(biāo)記為在臥室)等錯(cuò)誤。像VLM(視覺語言模型)這樣的多模態(tài)模型可能在從這類失敗中恢復(fù)方面更強(qiáng)大,這留待未來的工作來研究。

微調(diào)后的8B模型在性能上與使用70B模型的ReAct相當(dāng),但推理速度卻快了8.6倍。我們發(fā)現(xiàn),使用較小8B模型的微調(diào)規(guī)劃器與使用更大70B模型的ReAct性能相當(dāng)(在行(e)中,70B模型的成功率為0.73,而在行(g)中,微調(diào)后的8B模型的成功率為0.70)。同時(shí)發(fā)現(xiàn)微調(diào)模型在推理速度上快了8.6倍。這表明微調(diào)有效地從訓(xùn)練集中提取了與任務(wù)相關(guān)的信息,并將其泛化到新的測(cè)試任務(wù)中。當(dāng)與人類共同部署時(shí),微調(diào)模型所需的步驟更少,并且能夠分擔(dān)比70B模型更多的子任務(wù)(見表3)。

圖片

協(xié)作行為與效率分析

表2中的分析揭示了大型語言模型(LLM)在協(xié)作中面臨的挑戰(zhàn),這促使我們更深入地研究具體的協(xié)作行為。

機(jī)器人承擔(dān)了高達(dá)60%的任務(wù)。我們?cè)u(píng)估了機(jī)器人在從人類那里分擔(dān)任務(wù)方面的能力,具體方法是測(cè)量在成功的PARTNR任務(wù)中,機(jī)器人執(zhí)行的子任務(wù)占總子任務(wù)的比例。盡管單智能體和多智能體的成功率相似(0.73對(duì)比0.74),但在去中心化的多智能體環(huán)境中,機(jī)器人承擔(dān)了約60%的子任務(wù),從而減輕了人類的負(fù)擔(dān)。

去中心化的智能體容易執(zhí)行多余的任務(wù)。智能體有時(shí)會(huì)執(zhí)行對(duì)任務(wù)無用的子任務(wù),如重新排列任務(wù)中不需要的物體或重復(fù)另一個(gè)智能體已經(jīng)完成的子任務(wù)。為了衡量這種多余的努力,我們計(jì)算了在一次任務(wù)中,智能體的無效動(dòng)作(即未增加任務(wù)完成百分比、未對(duì)任務(wù)進(jìn)展做出貢獻(xiàn)的動(dòng)作)占總成功動(dòng)作的比例。我們發(fā)現(xiàn),與單智能體相比,在去中心化的多智能體環(huán)境中,無效努力增加了300%(見表12),這表明協(xié)調(diào)負(fù)擔(dān)顯著增加。

時(shí)間和異構(gòu)任務(wù)對(duì)LLM來說具有挑戰(zhàn)性。LLM在時(shí)間和異構(gòu)任務(wù)上表現(xiàn)困難。與ReAct的無約束任務(wù)相比,時(shí)間任務(wù)的成功率下降了27%,異構(gòu)任務(wù)的成功率下降了20%(見表13)。這凸顯了LLM在推理智能體能力和遵循嚴(yán)格順序約束方面的局限性。

人機(jī)交互評(píng)估

我們基于Habitat 3.0中的Human-in-the-loop基礎(chǔ)設(shè)施進(jìn)行了構(gòu)建,并將其調(diào)整為服務(wù)器-客戶端架構(gòu),其中服務(wù)器托管在AWS上,能夠支持多個(gè)客戶端。這使我們能夠使用129名非專業(yè)人類參與者對(duì)任務(wù)進(jìn)行大規(guī)模評(píng)估。使用該工具從驗(yàn)證集和測(cè)試集中收集了1000個(gè)任務(wù)的單用戶和多用戶數(shù)據(jù)。在單用戶設(shè)置中,一名參與者通過鍵盤/鼠標(biāo)控制在模擬器中的人類角色來完成整個(gè)任務(wù)(附錄中的圖14展示了我們的HITL界面)。在多用戶設(shè)置中,兩名參與者分別控制一個(gè)人類角色和一個(gè)機(jī)器人角色來共同完成任務(wù)。這些實(shí)驗(yàn)的目的是研究PARTNR任務(wù)中的多用戶動(dòng)態(tài),并觀察多名人類協(xié)作是否比單個(gè)人類更高效。最后,我們進(jìn)行了一項(xiàng)人機(jī)實(shí)驗(yàn),其中一名人類參與者與由大型語言模型(LLM)控制的機(jī)器人協(xié)作。該實(shí)驗(yàn)旨在評(píng)估LLM控制的智能體在與未見過的真實(shí)人類協(xié)作時(shí)的表現(xiàn)。表3顯示了驗(yàn)證集中任務(wù)在單用戶、多用戶、人類-ReAct和人類-微調(diào)設(shè)置下的成功率(SR)和完成百分比(PC)。此外,我們還測(cè)量了每種方法完成任務(wù)所需的步數(shù),以及機(jī)器人完成的工作量比例(即任務(wù)分擔(dān))。我們還通過測(cè)量選擇第一個(gè)對(duì)象所需的步數(shù)和無用努力(指對(duì)任務(wù)完成沒有幫助的動(dòng)作)來衡量人在回路中的探索效率。這些結(jié)果總結(jié)在表3中。

人類在PARTNR任務(wù)上的表現(xiàn)明顯優(yōu)于LLM。在單人和多人環(huán)境中,人類在PARTNR基準(zhǔn)上的成功率均為0.93。相比之下,沒有任何特權(quán)信息的ReAct模型的成功率顯著降低至0.30(表2的第(i)行)。這凸顯了LLM在規(guī)劃任務(wù)性能上的巨大差距。值得注意的是,當(dāng)與真實(shí)人類一起評(píng)估時(shí),像ReAct和微調(diào)這樣的LLM基線模型的成功率分別為0.92和0.91(表3),因?yàn)槿祟惸軌蜻m應(yīng)LLM的錯(cuò)誤。另一方面,表2中的模擬人類是一個(gè)LLM,它無法從合作伙伴的錯(cuò)誤中恢復(fù)。

在與真實(shí)人類協(xié)作時(shí),微調(diào)后的LLM表現(xiàn)優(yōu)于ReAct。當(dāng)與真實(shí)人類在回路中一起部署時(shí),微調(diào)模型在任務(wù)完成上比ReAct更快(微調(diào)模型3443步,ReAct 4267步)。它還能從人類那里分擔(dān)更多任務(wù)(微調(diào)模型26%,ReAct 16%)。這表明具有更快推理速度的小型模型可以改善真實(shí)世界部署中的人類體驗(yàn)。

LLM在協(xié)調(diào)方面存在困難,阻礙了人類的表現(xiàn)。盡管在與人類協(xié)作時(shí)微調(diào)模型比ReAct更快,但兩種方法都比人類單獨(dú)完成任務(wù)要慢。相比之下,兩名人類一起工作比單個(gè)人類完成任務(wù)更快(多人2369步,單人3046步)。這一結(jié)果與我們?cè)诒?中觀察到的自動(dòng)化評(píng)估結(jié)果一致,其中多智能體LLM也比單智能體LLM更慢。這一結(jié)果進(jìn)一步證實(shí),LLM在協(xié)調(diào)方面存在問題;而人類能夠相互協(xié)調(diào)并分配任務(wù),但去中心化的LLM卻無法做到這一點(diǎn)。

LLM能夠從人類那里分擔(dān)任務(wù)。盡管上述任務(wù)完成步數(shù)有所增加,但由微調(diào)模型指導(dǎo)的機(jī)器人成功地從人類那里分擔(dān)了26%的任務(wù)。這表明,在與真實(shí)人類合作伙伴協(xié)作時(shí),LLM仍然能夠提供幫助。盡管如此,仍有很大的改進(jìn)空間。

一些結(jié)論

PARTNR是一個(gè)針對(duì)多智能體實(shí)體任務(wù)中的推理與規(guī)劃基準(zhǔn),其特點(diǎn)是在60個(gè)模擬的多房間房屋中實(shí)例化了100,000項(xiàng)自然語言任務(wù),這些房屋中包含5,819個(gè)獨(dú)特物體。我們采用半自動(dòng)化的基于大型語言模型(LLM)的pipeline,用于大規(guī)模指令和評(píng)估功能的生成,該過程使用了基于模擬的循環(huán)接地技術(shù)。PARTNR展現(xiàn)了日常任務(wù)的特點(diǎn),如時(shí)間和空間的限制,并允許對(duì)規(guī)劃方法進(jìn)行系統(tǒng)評(píng)估。我們發(fā)現(xiàn),在PARTNR任務(wù)上,當(dāng)前最先進(jìn)的LLM與人類水平的性能之間存在顯著差距。盡管我們最佳的LLM基線在沒有特權(quán)信息的情況下僅成功完成了30%的任務(wù),但人類卻能解決93%的任務(wù)。此外,LLM在與基于LLM的智能體以及真實(shí)人類伙伴的協(xié)調(diào)中都面臨著挑戰(zhàn)。人類參與的評(píng)估(即真實(shí)人類與LLM指導(dǎo)的機(jī)器人合作)表明,與單獨(dú)工作相比,LLM指導(dǎo)的伙伴會(huì)降低人類的工作效率。這表明,基于LLM的智能體需要顯著改進(jìn),才能在實(shí)體任務(wù)中成為有效的合作伙伴。PARTNR作為一個(gè)具有挑戰(zhàn)性的基準(zhǔn),凸顯了當(dāng)前模型的重大局限性。

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-12-08 13:17:00

數(shù)據(jù)模型

2025-04-25 02:30:00

機(jī)械臂大模型多模態(tài)

2025-08-13 09:07:00

2024-10-12 14:10:00

智能應(yīng)用

2025-10-16 08:57:00

2025-08-21 11:53:15

2024-08-02 10:00:00

2024-06-04 09:25:51

2025-09-05 09:05:00

AI模型訓(xùn)練

2024-03-11 00:40:00

AI研究

2025-07-15 08:45:00

2025-07-28 08:49:00

2025-07-18 02:00:00

具身智能離身智能人工智能

2025-07-02 08:40:00

智能體AI模型

2025-07-04 16:50:07

工具AI模型

2025-11-20 19:55:17

2025-06-30 05:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

99国产精品久久久久久久| 波多野结衣欧美| 亚洲九九爱视频| 国产91社区| 在线永久看片免费的视频| jiujiure精品视频播放| 日韩精品一区二区三区在线播放| 久久中文字幕在线| 国产免费a级片| 五月天婷婷在线视频| 国产在线一区二区| 97视频在线观看视频免费视频 | 亚洲伦在线观看| 国产美女精品久久久| 日韩一级av毛片| 国产成人免费av一区二区午夜| 亚洲香蕉伊在人在线观| 日韩av电影免费播放| 国产成人久久精品77777综合| 亚洲欧美成人| 欧美成人全部免费| 中文 日韩 欧美| 午夜不卡影院| 亚洲色图欧洲色图| 日本一区二区三区视频在线播放| 成人av手机在线| 日韩成人午夜电影| 影音先锋欧美精品| 天天躁日日躁狠狠躁av麻豆男男| 成人亚洲网站| 欧美性猛交xxxx免费看| 成人免费看片'免费看| 精品99又大又爽又硬少妇毛片| 先锋亚洲精品| 久久久噜噜噜久噜久久| 精品少妇人妻av一区二区三区| 欧美va在线观看| 精品国产91久久久| 久久人人爽人人爽人人av| 日本在线免费网| 国产欧美一区二区三区沐欲| 精品伦精品一区二区三区视频| 性做久久久久久久| 国产一区二区伦理| 91久久精品在线| 亚洲视频久久久| 奇米在线7777在线精品| 国产激情视频一区| 无码一区二区三区| 日韩制服丝袜av| 日本久久久久久久久| 在线观看亚洲欧美| 国产精品亚洲欧美| 青草青草久热精品视频在线观看| 日韩成年人视频| av成人激情| 4438全国成人免费| 91精品国产高清一区二区三密臀| 99国产精品视频免费观看一公开| 久久久久久成人精品| 久久久久97国产| 亚洲电影av| 欧美专区在线观看| 亚洲黄色免费观看| 日本欧美一区二区三区| 国产精品成人国产乱一区 | 日本aⅴ在线观看| 五月精品视频| 欧美精品激情在线观看| 日本三级中文字幕| 久久久久久久欧美精品| 国产精品久久久久久av| 国产精品久久久久久69| 国产成人丝袜美腿| 麻豆久久久av免费| a黄色在线观看| 亚洲欧美另类久久久精品| www.国产在线视频| 黑人巨大精品| 欧美久久久久久蜜桃| 香蕉视频在线观看黄| 国产精品1luya在线播放| 日韩你懂的在线播放| 久久人人妻人人人人妻性色av| 国内毛片久久| 中文字幕在线成人| 久久久久黄色片| 久久久久看片| 91网站在线看| 青青草超碰在线| 中文字幕亚洲不卡| 夜夜添无码一区二区三区| 91精品影视| 欧美成人免费网站| 一区二区三区伦理片| 欧美一区网站| 国产成人鲁鲁免费视频a| 国产精品羞羞答答在线| 97久久人人超碰| 热这里只有精品| 日韩欧美精品一区二区三区| 欧美日韩成人综合在线一区二区| 香港三日本8a三级少妇三级99| 精品免费视频| 国内免费久久久久久久久久久| av首页在线观看| 粉嫩av一区二区三区| 神马影院我不卡| 黑人精品视频| 亚洲欧美视频一区| 久久久噜噜噜www成人网| 国产精品亚洲四区在线观看| 日韩成人在线观看| 伊人网综合视频| 国产精品久久久久久久免费观看| 97精品在线视频| 99精品在线视频观看| 国产亚洲1区2区3区| 国产精品无码免费专区午夜| 激情久久一区二区| 亚洲欧美色婷婷| 日韩精品久久久久久久酒店| 精品成人在线| 国产日韩综合一区二区性色av| 欧美色综合一区二区三区| 一区二区在线看| 最新中文字幕免费视频| 日日天天久久| 97婷婷涩涩精品一区| 国产特黄一级片| 国产精品人妖ts系列视频| 日韩av黄色网址| 欧美成人一区在线观看| 日韩电影中文 亚洲精品乱码| 国产日韩欧美在线观看视频| 蜜臀av性久久久久蜜臀aⅴ流畅 | 伊人五月天婷婷| 欧美一区二区三区激情视频| 中文字幕亚洲情99在线| 欧美黑人一区二区| 91在线云播放| 男人天堂1024| 亚洲香蕉视频| 中文字幕一精品亚洲无线一区| 成人在线免费看视频| 国产原创一区二区三区| 中文字幕一区二区三区有限公司 | 91精品在线麻豆| 久久国产高清视频| 激情婷婷久久| 国产精品国产精品国产专区蜜臀ah | 97se亚洲国产综合自在线不卡 | 亚洲国产成人精品久久久国产成人一区| 免费在线观看a级片| 国内欧美视频一区二区| 中国 免费 av| 亚洲精品福利| 97久久精品人搡人人玩| 色就是色亚洲色图| 在线观看日韩电影| 国产wwwwxxxx| 国产一区二区三区免费在线观看| 女人床在线观看| 懂色av一区二区| 日韩av免费在线观看| 成人影视在线播放| 欧美一区二区福利视频| 日本五十熟hd丰满| 久久久亚洲精品一区二区三区| 色诱视频在线观看| 国产高清一区| 俄罗斯精品一区二区三区| 大桥未久在线播放| 亚洲日本欧美中文幕| 91av久久久| 亚洲福利视频一区二区| av男人的天堂av| 精品一区二区在线播放| 俄罗斯av网站| 日韩综合在线| 国产日韩精品一区观看| 日韩电影免费观看高清完整版| 久久精品国产亚洲精品2020| 国产综合视频在线| 欧美三级一区二区| 国产亚洲精品女人久久久久久| 久久久亚洲午夜电影| 一区二区三区四区毛片| 亚洲国产精品一区| 午夜精品短视频| 国产suv精品一区二区四区视频| 欧洲亚洲免费在线| 中文在线手机av| 亚洲欧美国产高清va在线播| 99久久精品国产色欲| 欧美日韩一区免费| 在线中文字日产幕| 日韩影院免费视频| 日韩一级性生活片| 91九色精品| 欧美色欧美亚洲另类七区| 自拍偷拍欧美日韩| 日本韩国在线不卡| 污污视频在线| 日韩在线视频观看正片免费网站| 国产成人三级在线观看视频| 欧美日本一道本| 天天综合网入口| 一区二区三区四区蜜桃| 中文字幕网站在线观看| 成人一区二区三区| 制服丝袜中文字幕第一页| 久久精品免费| www.avtt| 在线电影一区二区| 色女人综合av| 综合国产视频| 国产欧美日韩在线播放| 日本在线视频一区二区三区| 国产精品国产福利国产秒拍| 高清视频在线观看三级| 欧美黑人视频一区| 国产福利资源在线| 欧美日韩国产123区| 国产免费一区二区三区四区五区| 亚洲成人资源网| 欧美xxxx黑人xyx性爽| 1024亚洲合集| 俄罗斯毛片基地| 国产欧美日韩精品在线| mm131美女视频| 91影院在线观看| 中文字幕在线播放一区| 成人综合婷婷国产精品久久免费| 91香蕉视频免费看| 国产精品一级二级| 亚洲少妇30p| 久久国产高清视频| 亚洲天堂成人网| 黄视频网站免费看| 亚洲人成影院在线观看| 欧美一级特黄高清视频| 国产精品的网站| 自拍偷拍第9页| 国产精品国产三级国产a | 中文字幕一区二区三区在线不卡| 性の欲びの女javhd| 国产欧美精品区一区二区三区| 在线免费观看视频| 国产精品嫩草99a| 波多野结衣喷潮| 亚洲美女视频在线观看| 久久久久亚洲AV成人| 夜色激情一区二区| 国产精品第108页| 99热精品国产| 3d动漫精品啪啪一区二区下载| 99国产精品久| 一本色道久久综合亚洲精品图片| 久久久夜色精品亚洲| 亚洲一级片在线播放| 一区在线观看视频| 日韩黄色免费观看| 亚洲自拍偷拍九九九| 久久夜靖品2区| 色噜噜久久综合| 一级特黄色大片| 欧美大片顶级少妇| 四虎影院在线播放| 日韩在线观看免费高清| 无码国产伦一区二区三区视频| 日韩精品一二三四区| 超碰在线国产| 欧美激情视频网址| 日韩久久一区二区三区| 亚洲bt欧美bt日本bt| 欧美wwwwww| 福利网在线观看| 免费精品视频| 国产毛片久久久久久| 97精品久久久午夜一区二区三区 | 福利片在线观看| 亚洲精品mp4| 成a人片在线观看www视频| 久久av在线看| 亚洲涩涩在线| 91久久嫩草影院一区二区| 蜜桃一区av| 韩国成人动漫在线观看| 九九在线高清精品视频| 中文字幕一区二区三区四区五区人| 韩国在线视频一区| 丝袜制服一区二区三区| 岛国精品在线观看| 糖心vlog免费在线观看| 欧美日韩国产页| 国产强被迫伦姧在线观看无码| 日韩精品免费一线在线观看| 麻豆tv入口在线看| 青青久久av北条麻妃海外网| 国产日韩在线观看视频| 欧美自拍资源在线| 亚洲欧洲一区| 亚洲一区二区三区三州| 国产亚洲综合性久久久影院| 久久久久亚洲av成人片| 欧美日韩你懂得| 九色蝌蚪在线| 久久免费少妇高潮久久精品99| 性欧美video另类hd尤物| 欧美日韩国产免费一区二区三区 | 欧美风情在线观看| 亚洲ww精品| 五月天丁香综合久久国产| 9国产精品视频| 日韩Av无码精品| 亚洲另类一区二区| 亚洲最新av网站| 影音先锋日韩有码| 亚洲不卡系列| 美女主播视频一区| 99国产精品久久久久久久 | 国产精品自偷自拍| 亚洲一区二区久久| 日韩免费va| 日本不卡一区二区三区视频| 国产精品嫩草99av在线| 性高潮免费视频| 亚洲一区二区三区四区中文字幕| 97在线公开视频| 精品国偷自产在线视频| 欧美a一级片| 一区二区精品在线| 久久综合综合久久综合| 欧美成人久久久免费播放| 在线亚洲精品福利网址导航| 久蕉依人在线视频| 国产成人高潮免费观看精品| 女人av一区| av免费网站观看| 激情久久五月天| 亚洲欧美精品久久| 欧美日韩大陆一区二区| 看黄网站在线| 91成人免费看| 综合激情一区| 亚洲av综合色区无码另类小说| 一区二区三区四区在线免费观看| 成 人片 黄 色 大 片| 国内自拍欧美激情| 亚洲免费专区| www.色偷偷.com| 亚洲同性gay激情无套| 91精品国产综合久| 欧美成aaa人片免费看| 91亚洲无吗| 99精品免费在线观看| 国产农村妇女毛片精品久久麻豆| 国产精品无码一区| 久久久精品国产网站| 在线日韩成人| 精品欧美一区免费观看α√| 久久久久国产精品麻豆ai换脸| 瑟瑟视频在线免费观看| 久久久精品国产| 国产精品色在线网站| 日韩欧美在线播放视频| 中文字幕av免费专区久久| 国产精品伦理一区| 性色av一区二区三区免费| 少妇精品久久久| 久久精品亚洲天堂| 五月天激情小说综合| 国产精品久久久久一区二区国产| 国产综合在线观看视频| 在线 亚洲欧美在线综合一区| 波多野结衣 在线| 欧美日韩成人激情| av在线中出| 一区二区在线观看网站| www.亚洲色图.com| 免费在线不卡av| 久久久久久久久久久久久久久久久久av | 欧美男男青年gay1069videost | 色老汉一区二区三区| 成人影院在线观看| 国产精品偷伦一区二区| 最新欧美人z0oozo0| 狠狠人妻久久久久久综合蜜桃| 欧美日韩一级视频| 国产在线精彩视频| 亚洲国产精品影视| 91蝌蚪porny| av中文字幕免费在线观看| 欧洲美女免费图片一区| 亚洲中无吗在线| 欧美激情视频二区| 亚洲精品国精品久久99热一| 精品国产亚洲一区二区三区大结局| 成人免费观看毛片|