精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Meta最新！PARTNR：具身多智能體任務(wù)中規(guī)劃與推理的基準(zhǔn)測(cè)試框架

作者：具身智能之心 2024-11-14 10:40:00

人工智能新聞

PARTNR是一個(gè)針對(duì)多智能體實(shí)體任務(wù)中的推理與規(guī)劃基準(zhǔn)，其特點(diǎn)是在60個(gè)模擬的多房間房屋中實(shí)例化了100,000項(xiàng)自然語言任務(wù)，這些房屋中包含5,819個(gè)獨(dú)特物體。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面&出發(fā)點(diǎn)

本文提出了一個(gè)人機(jī)協(xié)作中的規(guī)劃與推理任務(wù)基準(zhǔn)（PARTNR），旨在研究家庭活動(dòng)中的人機(jī)協(xié)調(diào)。PARTNR任務(wù)展現(xiàn)了日常任務(wù)的特點(diǎn)，如空間、時(shí)間和異構(gòu)agent能力約束。我們采用大型語言模型（LLMs）構(gòu)建了一個(gè)半自動(dòng)化的任務(wù)生成流程，并融入了循環(huán)中的模擬以進(jìn)行實(shí)現(xiàn)和驗(yàn)證。PARTNR是同類基準(zhǔn)中規(guī)模最大的，包含10萬個(gè)自然語言任務(wù)，涉及60棟房屋和5819個(gè)獨(dú)特物品。圍繞規(guī)劃、感知和技能執(zhí)行等維度，對(duì)PARTNR任務(wù)上的最新大語言模型（SoTA）進(jìn)行了分析。分析結(jié)果顯示，SoTA模型存在顯著局限性，如協(xié)調(diào)性差、任務(wù)跟蹤失敗以及錯(cuò)誤恢復(fù)能力不足。當(dāng)大型語言模型與人類真實(shí)用戶配對(duì)時(shí)，它們所需的步驟數(shù)是兩人協(xié)作的1.5倍，比單個(gè)人類多1.1倍，這凸顯了這些模型有待提升的潛力。論文還進(jìn)一步表明，使用規(guī)劃數(shù)據(jù)對(duì)較小的大型語言模型進(jìn)行微調(diào)，可以實(shí)現(xiàn)與體積為其9倍的大型模型相當(dāng)?shù)男阅?，同時(shí)在推理速度上快8.6倍。PARTNR凸顯了協(xié)作式實(shí)體agents面臨的重大挑戰(zhàn)，并旨在推動(dòng)該領(lǐng)域的研究發(fā)展。

Code: https://github.com/facebookresearch/partnr-planner

Website: https://aihabitat.org/partnr

內(nèi)容出自國內(nèi)首個(gè)具身智能全棧學(xué)習(xí)社區(qū)：具身智能之心知識(shí)星球，這里包含所有你想要的。

一些介紹

想象這樣一個(gè)家用機(jī)器人：它能像人與人之間的互動(dòng)那樣，使用自然語言與人類在日常活動(dòng)中協(xié)作。這種場(chǎng)景需要兩個(gè)關(guān)鍵特性：機(jī)器人與人類之間的動(dòng)態(tài)協(xié)作，以及使用自然語言進(jìn)行交流。當(dāng)前具身人工智能（embodied AI）的基準(zhǔn)測(cè)試通常只滿足其中一個(gè)條件；要么機(jī)器人是獨(dú)立運(yùn)作的，要么任務(wù)不是用自然語言指定的。盡管具身人工智能領(lǐng)域取得了顯著進(jìn)展，但在評(píng)估機(jī)器人在協(xié)作環(huán)境中的表現(xiàn)的現(xiàn)實(shí)基準(zhǔn)測(cè)試方面仍存在空白。為了彌補(bǔ)這一空白，我們推出了人機(jī)協(xié)作中的規(guī)劃與推理任務(wù)基準(zhǔn)（PARTNR），這是一個(gè)新穎的基準(zhǔn)測(cè)試，用于評(píng)估具身人工智能agent在模擬室內(nèi)環(huán)境中與人類在各種家庭活動(dòng)上的協(xié)作能力。

PARTNR由10萬個(gè)自然語言指令和與之配套的評(píng)價(jià)函數(shù)組成，重點(diǎn)關(guān)注四種任務(wù)類型：（1）無約束任務(wù)，其中子任務(wù)可以由任一agent以任何方式完成，（2）包含空間約束的空間任務(wù)，（3）需要按順序執(zhí)行的時(shí)間任務(wù)，以及（4）包含無法由其中一個(gè)agent完成的動(dòng)作的異構(gòu)任務(wù)。除了長時(shí)規(guī)劃、新型部分可觀察環(huán)境以及大狀態(tài)和動(dòng)作空間等傳統(tǒng)挑戰(zhàn)外，PARTNR還強(qiáng)調(diào)了有效協(xié)作動(dòng)態(tài)（如任務(wù)分配和跟蹤合作伙伴的進(jìn)度）的必要性。

創(chuàng)建這樣一個(gè)具有大規(guī)模自然語言任務(wù)和定制評(píng)價(jià)函數(shù)的基準(zhǔn)測(cè)試面臨著重大挑戰(zhàn)。當(dāng)前的基準(zhǔn)測(cè)試通常依賴于模板化任務(wù)或由人類設(shè)計(jì)的任務(wù)和評(píng)價(jià)，這可能限制了數(shù)據(jù)集的多樣性或規(guī)模。為了克服這一問題，本文提出了一種使用大型語言模型（LLMs）并結(jié)合循環(huán)模擬接地（simulation-in-the-loop grounding）的半自動(dòng)化生成方法。首先，大型語言模型生成任務(wù)和評(píng)價(jià)函數(shù)，這些函數(shù)與模擬房屋中的物品和家具相關(guān)聯(lián)。接下來，采用循環(huán)模擬來過濾掉幻覺和不可行的指令，并通過人工標(biāo)注來增強(qiáng)多樣性和準(zhǔn)確性。然后，利用一套經(jīng)過驗(yàn)證的1000條指令和評(píng)價(jià)函數(shù)以及多樣化的模擬房屋，通過上下文提示引導(dǎo)大型語言模型創(chuàng)建10萬個(gè)任務(wù)。

由于PARTNR包含自然語言任務(wù)，且大型語言模型（LLMs）在規(guī)劃方面已展現(xiàn)出顯著成效，我們探索了如何提示和微調(diào)LLMs，以評(píng)估它們?cè)趨f(xié)作場(chǎng)景中的有效性。我們研究了環(huán)境可觀性（即完全可觀或部分可觀）、集中式與分散式多智能體控制、學(xué)習(xí)到的或特權(quán)機(jī)器人技能、以及基于LLMs的規(guī)劃中對(duì)3D世界信息進(jìn)行接地的不同方式的影響。除了這些使用合成人類伙伴進(jìn)行的自動(dòng)化評(píng)估外，還進(jìn)行了包含真實(shí)人類參與的評(píng)估，讓人們單獨(dú)執(zhí)行任務(wù)、與人類伙伴一起執(zhí)行任務(wù)或與LLMs指導(dǎo)的機(jī)器人伙伴一起執(zhí)行任務(wù)?？傮w而言，發(fā)現(xiàn)LLMs在協(xié)調(diào)、任務(wù)跟蹤以及處理感知和技能錯(cuò)誤方面存在困難。雖然人類能夠解決93%的PARTNR任務(wù)，但在非特權(quán)條件下，當(dāng)前最先進(jìn)（SoTA）的LLMs僅能成功完成30%的任務(wù)。此外，在分散式多智能體設(shè)置中，由于跟蹤伙伴動(dòng)作的能力較差，導(dǎo)致出現(xiàn)了多余動(dòng)作，完成任務(wù)所需的步驟比單智能體多1.3倍。相比之下，在我們的包含真實(shí)人類參與的實(shí)驗(yàn)中，人類搭檔的表現(xiàn)優(yōu)于單獨(dú)的人類，這凸顯了改進(jìn)LLMs協(xié)作策略的潛力。LLMs還難以從技能失敗和感知接地錯(cuò)誤中恢復(fù)，當(dāng)移除特權(quán)技能和特權(quán)感知時(shí)，其性能會(huì)降低。在比較模型大小時(shí)，我們發(fā)現(xiàn)經(jīng)過微調(diào)的較小模型Llama3.1-8B的性能與未經(jīng)微調(diào)的Llama3.1-70B相當(dāng)，但推理速度卻快了8.6倍。在與真實(shí)人類共同參與的評(píng)估中，這一更快的推理速度發(fā)揮了重要作用，因?yàn)榻?jīng)過微調(diào)的模型所需步驟更少，為人類分擔(dān)了更多任務(wù)。

PARTNR能夠在各種協(xié)作場(chǎng)景中實(shí)現(xiàn)對(duì)具身智能體的可重復(fù)、大規(guī)模和系統(tǒng)性的評(píng)估。通過系統(tǒng)性的評(píng)估，我們揭示了當(dāng)前基于LLM的規(guī)劃器的關(guān)鍵局限性，為未來的研究指明了有趣的方向。

相關(guān)工作一覽

基于語言的具身人工智能基準(zhǔn)測(cè)試。大量關(guān)于具身人工智能中語言基準(zhǔn)測(cè)試的工作都集中在導(dǎo)航或具身問答上，這些任務(wù)涉及導(dǎo)航和信息收集，但不需要智能體修改其環(huán)境。與本文的工作更為接近的是指令遵循基準(zhǔn)測(cè)試，在這些基準(zhǔn)測(cè)試中，智能體通過與環(huán)境的交互來完成通過語言描述的任務(wù)，盡管任務(wù)的多樣性有限。相比之下，我們利用大型語言模型（LLMs）生成多樣化的任務(wù)定義和場(chǎng)景初始化，并將其擴(kuò)展到多智能體設(shè)置中。使用LLMs擴(kuò)大任務(wù)生成的規(guī)模這一想法在最近的一些工作中得到了探索。然而，這些工作往往側(cè)重于相對(duì)短期內(nèi)的單智能體任務(wù)，而本文考慮的是長期的多智能體問題。表1將相關(guān)基準(zhǔn)測(cè)試與PARTNR進(jìn)行了比較。

具身多智能體基準(zhǔn)測(cè)試。多項(xiàng)工作已經(jīng)提出了具身多智能體基準(zhǔn)測(cè)試。其中許多基準(zhǔn)測(cè)試都集中在簡單2D環(huán)境中的協(xié)調(diào)問題上，這限制了它們?cè)诂F(xiàn)實(shí)世界場(chǎng)景中的應(yīng)用。最近的工作開發(fā)了研究更真實(shí)環(huán)境和活動(dòng)中協(xié)作的基準(zhǔn)測(cè)試，這些基準(zhǔn)測(cè)試關(guān)注在大型、部分可觀察的3D環(huán)境中重新排列物體或家具，或在柜臺(tái)空間內(nèi)操作物體。然而，這些基準(zhǔn)測(cè)試通常局限于一組預(yù)定義且數(shù)量有限的任務(wù)，這些任務(wù)往往不是用自然語言描述的，并且主要涉及物體的重新排列。相比之下，PARTNR涵蓋了一個(gè)開放的任務(wù)集，每個(gè)任務(wù)都用自然語言描述，要求智能體在空間和時(shí)間的約束下重新排列物體，并要求執(zhí)行只能由人類智能體完成的異構(gòu)動(dòng)作（例如洗碗或打開烤箱）。

Benchmark生成

我們推出了PARTNR基準(zhǔn)測(cè)試，旨在訓(xùn)練和評(píng)估機(jī)器人與人類合作解決自然語言任務(wù)的能力。PARTNR涵蓋了四種類型的任務(wù)：（1）無約束任務(wù)，即子任務(wù)可以由任一智能體以任何方式完成。例如，“讓我們把所有臟盤子移到水槽里?！保?）空間任務(wù)，需要推理物體的空間位置。例如，“讓我們把書放在書架上，彼此緊挨著。”（3）時(shí)間任務(wù)，子任務(wù)的執(zhí)行順序很重要。例如，“讓我們先把餐桌上的蠟燭拿走，再把盤子端到桌上?！保?）異構(gòu)任務(wù)，涉及超出機(jī)器人能力的動(dòng)作。例如，“讓我們?cè)诎驯P子放到架子上之前先把它們洗干凈。”在機(jī)器人的技能不支持洗滌的場(chǎng)景中，完成這項(xiàng)任務(wù)需要對(duì)智能體的能力進(jìn)行推理。我們的基準(zhǔn)測(cè)試包括自然語言指令和相應(yīng)的評(píng)估函數(shù)，這兩者都是使用大型語言模型（LLMs）大規(guī)模生成的。具體來說，我們生成了1000條經(jīng)過人工驗(yàn)證的指令和相應(yīng)的評(píng)估函數(shù)，并將它們作為即時(shí)提示示例，擴(kuò)展到其他具有不同布局和物體的場(chǎng)景中的100000項(xiàng)任務(wù)。我們自動(dòng)生成的一個(gè)獨(dú)特之處在于，在生成循環(huán)中整合了一個(gè)實(shí)體模擬器，這大大減少了大型語言模型可能出現(xiàn)的幻覺和不可行動(dòng)作等錯(cuò)誤。

1 基于仿真循環(huán)的任務(wù)指令生成

盡管基于大型語言模型（LLM）的任務(wù)生成在之前的文獻(xiàn)中已有研究，但這些生成的任務(wù)并未超出用戶創(chuàng)建的 in-context prompts的范圍。在PARTNR中，使用了基于仿真循環(huán)的生成技術(shù)，將大語言模型與環(huán)境、智能體和可用動(dòng)作相結(jié)合。具體來說，在Habitat 3.0模擬器中實(shí)例化了一個(gè)仿真環(huán)境，該環(huán)境填充了HSSD數(shù)據(jù)集，包含60棟獨(dú)特的房屋和5819個(gè)OVMM對(duì)象。模擬房屋被解析為房間和可用家具的列表，并與所有可用目標(biāo)一起傳遞給大語言模型。利用這些信息，要求大語言模型在場(chǎng)景中生成自由形式、可行的任務(wù)，以及初始場(chǎng)景狀態(tài)描述。例如，如果生成的任務(wù)是“清理客廳的餐具”，大型語言模型應(yīng)該生成一個(gè)客廳內(nèi)有多個(gè)餐具的初始場(chǎng)景。在這個(gè)階段，還會(huì)向場(chǎng)景中添加額外的目標(biāo)，以在環(huán)境中制造混亂。任務(wù)、初始狀態(tài)和混亂一旦生成，就會(huì)在模擬器中實(shí)例化，并過濾掉不可行的指令。例如，如果房屋沒有客廳，“清理客廳的餐具”就是無效的。同樣，如果生成的任務(wù)需要模擬器不支持的動(dòng)作，如折疊，則該任務(wù)會(huì)被過濾掉。通常，幻覺的產(chǎn)生率很高，導(dǎo)致大量情節(jié)被丟棄。我們觀察到，在過濾掉不可行的指令后，生成指令的多樣性通常受到限制。例如，大多數(shù)指令都使用相同的對(duì)象（如餐具）或類似的房間（如廚房或餐廳）。為了增加生成任務(wù)的多樣性，我們進(jìn)行了手動(dòng)標(biāo)注，以確保任務(wù)和對(duì)象的多樣性，例如，通過修改指令以激發(fā)特定特征，來維持無約束、空間、時(shí)間和異構(gòu)任務(wù)的平衡分布。這一過程產(chǎn)生了1000個(gè)經(jīng)過人工標(biāo)注和仿真驗(yàn)證的任務(wù)。

對(duì)于大規(guī)模生成而言，這種手動(dòng)標(biāo)注并不實(shí)際。相反，我們利用這1000條經(jīng)過人工標(biāo)注的指令作為提示中的示例，來擴(kuò)展生成規(guī)模。向大語言模型提供房屋描述和一個(gè)示例任務(wù)，并指示它修改任務(wù)以適應(yīng)新的房屋。例如，將任務(wù)“清理客廳里的所有餐具”修改為“清理臥室里的所有玩具”。這樣做可以在保持原始標(biāo)注指令集多樣性的同時(shí)，確保在模擬器中成功實(shí)例化的高可能性。從質(zhì)量上看，我們過濾或編輯了約90%的自由形式生成的指令，而只有約10%的擴(kuò)展指令需要這樣做。使用LLama3-70B-Instruct來生成所有指令。最后，所有任務(wù)都經(jīng)過基于人類反饋的循環(huán)過濾。在這一步中，人類使用我們的基于人類反饋的工具嘗試完成任務(wù)，并消除難以檢測(cè)的物理上不可行的指令，比如要求一個(gè)物體同時(shí)出現(xiàn)在兩個(gè)位置。圖2概述了我們的流程。

2 評(píng)價(jià)函數(shù)生成

為了判斷智能體是否成功完成了指令“清理客廳里的所有餐具”，我們需要一個(gè)評(píng)價(jià)函數(shù)來驗(yàn)證是否已從任何客廳中移除了所有勺子、叉子和其他餐具。然而，手動(dòng)標(biāo)注任務(wù)所需的所有重新排列和狀態(tài)變化既耗時(shí)又由于每個(gè)任務(wù)的獨(dú)特性而在大規(guī)模上難以實(shí)現(xiàn)。與指令生成類似，我們采用大型語言模型（LLM）來創(chuàng)建一個(gè)評(píng)價(jià)函數(shù)，該函數(shù)無需任何手動(dòng)標(biāo)注即可評(píng)估任務(wù)完成情況。具體來說，利用大型語言模型生成基于謂詞的Python程序的能力，這需要使用三種類型的API：一個(gè)命題列表，指示實(shí)體之間必須滿足的關(guān)系；一組依賴項(xiàng)，指示何時(shí)應(yīng)查詢命題；以及一組約束，指示命題必須如何滿足。為這些組件中的每一個(gè)定義了一個(gè)富有表達(dá)力的詞匯，以便對(duì)基準(zhǔn)測(cè)試中的所有任務(wù)進(jìn)行評(píng)估（例如，圖3）。密切相關(guān)的評(píng)價(jià)系統(tǒng)包括使用PDDL或BDDL定義任務(wù)。選擇構(gòu)建一個(gè)新的基于Python的評(píng)價(jià)系統(tǒng)，因?yàn)檫@兩個(gè)系統(tǒng)都無法在保持人類和大型語言模型可解釋性的同時(shí)評(píng)估PARTNR任務(wù)；例如，BDDL不支持隨時(shí)間變化的評(píng)估。由于PARTNR任務(wù)具有時(shí)間依賴性（例如，多步驟重新排列），因此評(píng)價(jià)函數(shù)的輸入是任務(wù)執(zhí)行期間模擬器狀態(tài)的完整序列。評(píng)價(jià)函數(shù)返回三個(gè)指標(biāo)：（1）完成百分比（PC ∈ [0, 1]），即相對(duì)于約束而言已滿足的命題的百分比；（2）成功（S ∈ {True, False}），衡量任務(wù)是否成功完成，定義為S := (PC = 1)；以及（3）失敗解釋（FE），一種人類和大型語言模型可解釋的語言描述，用于說明智能體未能完成任務(wù)的原因。

使用CodeLLama-70B-instruct來生成評(píng)價(jià)函數(shù)。如圖3所示，生成完美的評(píng)價(jià)函數(shù)并非易事。大型語言模型（LLM）必須根據(jù)自然語言指令和特定的模擬環(huán)境，正確分類所有可能的動(dòng)作空間，這可能相當(dāng)復(fù)雜。例如，在圖3中，指令“把植物放在架子上”指的是“架子”，但房間里有兩個(gè)架子。評(píng)價(jià)函數(shù)必須允許選擇任意一個(gè)架子，同時(shí)要求放置所有植物，并最終考慮相鄰關(guān)系。命題或約束中的任何錯(cuò)誤或缺失值都會(huì)導(dǎo)致評(píng)價(jià)函數(shù)失效。因此，我們觀察到LLM生成的錯(cuò)誤率很高，特別是關(guān)于錯(cuò)誤命題和時(shí)間順序約束的錯(cuò)誤。

為了減輕這些不準(zhǔn)確性，遵循與指令生成相似的半自動(dòng)化程序。首先為1000條人工標(biāo)注的指令生成評(píng)價(jià)函數(shù)，并進(jìn)行手動(dòng)標(biāo)注以進(jìn)行修正。這產(chǎn)生了包含1000對(duì)經(jīng)過人工驗(yàn)證的指令和評(píng)價(jià)函數(shù)的數(shù)據(jù)集。接下來，為擴(kuò)展的100000條指令集生成評(píng)價(jià)。請(qǐng)注意，擴(kuò)展指令是通過向LLM提供標(biāo)注集中的示例指令來生成的。我們檢索相應(yīng)的標(biāo)注評(píng)價(jià)函數(shù)，并將其提供給LLM。這與檢索增強(qiáng)生成等方法類似，并通過人工檢查發(fā)現(xiàn)，將評(píng)價(jià)函數(shù)生成的準(zhǔn)確率從50%提高到92%。最后一步是，要求人類用戶使用我們基于人類反饋的評(píng)價(jià)工具解決所有PARTNR任務(wù)。所有在人類用戶6次嘗試（3次單人嘗試，3次多人嘗試）后仍未解決的任務(wù)都被視為不可行，并從數(shù)據(jù)集中刪除。我們發(fā)現(xiàn)，自動(dòng)化生成的指令中約有90%準(zhǔn)確，評(píng)價(jià)函數(shù)中約有92%準(zhǔn)確，綜合生成準(zhǔn)確率為90% × 92% = 83%。

3 PARTNR Dataset

PARTNR數(shù)據(jù)集由來自HSSD數(shù)據(jù)集的37個(gè)訓(xùn)練場(chǎng)景中的100,000個(gè)片段、13個(gè)驗(yàn)證場(chǎng)景中的1,000個(gè)片段和10個(gè)測(cè)試場(chǎng)景中的1,000個(gè)片段組成。在擴(kuò)展生成后，所有驗(yàn)證集和測(cè)試集的片段都經(jīng)過了人工標(biāo)注以確保正確性，同時(shí)訓(xùn)練集的一個(gè)包含2,000個(gè)片段的子集也進(jìn)行了人工標(biāo)注。關(guān)于擴(kuò)展生成片段的正確性分析。下面分析下該數(shù)據(jù)集的特點(diǎn)和多樣性。

特點(diǎn)：如前所述，PARTNR數(shù)據(jù)集側(cè)重于四種任務(wù)類型：無約束、空間、時(shí)間和異構(gòu)。在圖4中展示了這些任務(wù)類型在測(cè)試集中的分布情況；驗(yàn)證集的分布情況與之相似。PARTNR數(shù)據(jù)集在這些維度上獨(dú)立且聯(lián)合地評(píng)估協(xié)作。其他值得關(guān)注的特性包括依賴重排（例如，“把它們放在同一張桌子上”）和同一對(duì)象的多步重排（例如，“把杯子拿到水槽邊，洗干凈，然后放進(jìn)櫥柜里”）。7%的任務(wù)包含依賴重排，6%的任務(wù)包含多步重排。任務(wù)平均需要滿足4.7個(gè)命題（表明完成任務(wù)所需的步驟數(shù)量）。

多樣性：PARTNR數(shù)據(jù)集中任務(wù)的多樣性在很大程度上得益于循環(huán)模擬生成，該生成方法利用了豐富的HSSD場(chǎng)景和OVMM對(duì)象集。因此，PARTNR數(shù)據(jù)集中的任務(wù)涉及并需要對(duì)155種獨(dú)特對(duì)象類型、20類家具和13種房型進(jìn)行推理。請(qǐng)注意，每條指令在每個(gè)房屋中的實(shí)例化都帶來了其自身的多樣性。例如，“把筆記本電腦搬到辦公桌上”，這條指令在每個(gè)房屋中都獨(dú)特地指定了辦公室和桌子的位置，以及不同指令中不同的筆記本電腦實(shí)例。

實(shí)驗(yàn)和分析

我們利用PARTNR探究了最先進(jìn)的規(guī)劃和感知方法如何在新環(huán)境中處理自然語言任務(wù)，以及如何與未見過的伙伴進(jìn)行協(xié)調(diào)。由于PARTNR包含由語言指定的各種時(shí)空任務(wù)，這里主要在基線中使用大型語言模型（LLMs）進(jìn)行規(guī)劃，并研究了以下變體：（1）零樣本提示、檢索增強(qiáng)生成或微調(diào)，（2）集中式規(guī)劃與分散式規(guī)劃，（3）部分可觀察環(huán)境與完全可觀察環(huán)境，（4）學(xué)習(xí)得到的低級(jí)機(jī)器人技能與理想的低級(jí)機(jī)器人技能，以及（5）特權(quán)感知與非特權(quán)感知。

實(shí)驗(yàn)是在Habitat 3.0模擬器中進(jìn)行的，使用了模擬的Spot機(jī)器人。我們?yōu)闄C(jī)器人和模擬人類采用了一種兩層分級(jí)控制架構(gòu)，如圖5所示。在高層級(jí)上，規(guī)劃器從預(yù)定義的技能庫（例如，導(dǎo)航、拾取、放置、打開、關(guān)閉）中選擇技能。我們還使用了一個(gè)具有三層層次結(jié)構(gòu)的文本世界圖，分別表示房間、家具和可移動(dòng)物體。圖中的每個(gè)節(jié)點(diǎn)都存儲(chǔ)了一個(gè)語義類別（例如，廚房、桌子或杯子）、三維信息（例如，位置或邊界框）和狀態(tài)（例如，干凈、已通電）。

1 Baselines

我們按照以下維度對(duì)基線進(jìn)行評(píng)估：

1.高級(jí)規(guī)劃器的變體：

啟發(fā)式專家：這種方法利用專家設(shè)計(jì)的啟發(fā)式方法和關(guān)于任務(wù)、環(huán)境和評(píng)估函數(shù)的特權(quán)信息，基于人類和機(jī)器人的能力預(yù)先規(guī)劃所有步驟。例如，兩個(gè)agent都可能重新排列物體，但只有人類執(zhí)行清潔、填充和開關(guān)任務(wù)。
零樣本ReAct（ReAct）：使用ReAct及其API函數(shù)庫或工具庫，使大語言模型（LLM）能夠執(zhí)行動(dòng)作。作為觀察，向LLM提供簡潔、當(dāng)前的世界圖描述以及動(dòng)作歷史。LLM利用這些信息從[探索房間、導(dǎo)航、打開家具、關(guān)閉家具、拾取物體、放置物體、等待、完成]中為機(jī)器人選擇一個(gè)動(dòng)作。
帶有檢索增強(qiáng)生成（RAG）的ReAct（ReAct-RAG）：還評(píng)估了帶有RAG的ReAct，以研究在類似任務(wù)上的規(guī)劃示例是否能提高ReAct的性能。通過從ReAct在2000個(gè)任務(wù)訓(xùn)練子集中的成功軌跡中收集數(shù)據(jù)，構(gòu)建了一個(gè)規(guī)劃示例數(shù)據(jù)庫。在測(cè)試時(shí)，基于句子相似性從訓(xùn)練數(shù)據(jù)集中選擇最相關(guān)的規(guī)劃軌跡，并將其添加到LLM的提示中。
微調(diào)后的LLM（Finetuned）：本文還研究了使用ReAct基線中成功的軌跡來微調(diào)一個(gè)較小的LLM（Llama3.1-8B）作為高級(jí)規(guī)劃器，這些基線使用Llama3.1-70B。這里使用React-RAG數(shù)據(jù)集，將每個(gè)片段拆分為一系列高級(jí)規(guī)劃動(dòng)作，僅篩選成功執(zhí)行的動(dòng)作。對(duì)于每個(gè)動(dòng)作，構(gòu)建一個(gè)包含世界圖和動(dòng)作歷史的輸入，類似于ReAct。然后使用低秩適配器微調(diào)一個(gè)LLM，以在給定此輸入的情況下從ReAct片段中預(yù)測(cè)動(dòng)作。該模型降低了延遲和計(jì)算需求，適合現(xiàn)實(shí)世界中的部署。

所有模型生成都受到約束生成的限制，僅輸出對(duì)觀察到的對(duì)象有效的動(dòng)作。約束生成極大地減少了LLM典型的幻覺和“語法”錯(cuò)誤。當(dāng)兩個(gè)agent都調(diào)用Done或達(dá)到最大模擬步驟或LLM調(diào)用時(shí)，一個(gè)片段即結(jié)束。

集中式與分散式規(guī)劃：

為了研究多agent PARTNR任務(wù)中協(xié)調(diào)的開銷，這里比較了集中式規(guī)劃器和分散式規(guī)劃器。在集中式規(guī)劃中，單個(gè)大型語言模型（LLM）根據(jù)兩個(gè)agent的完整狀態(tài)信息為它們決定動(dòng)作，從而有效地消除了agent之間的任何協(xié)調(diào)需求。在分散式規(guī)劃中，每個(gè)agent由不同的LLM控制，每個(gè)LLM都需要推斷另一個(gè)agent的動(dòng)作。

部分可觀察與完全可觀察：

為了評(píng)估當(dāng)前最先進(jìn)（SoTA）的語言模型是否能夠探索新環(huán)境并識(shí)別與任務(wù)相關(guān)的對(duì)象，考慮了一個(gè)部分可觀察的設(shè)置，其中規(guī)劃器知道房屋的布局但不知道目標(biāo)的位置，因此需要探索。這與完全可觀察的設(shè)置形成對(duì)比，在完全可觀察的設(shè)置中，所有目標(biāo)的位置都是事先已知的。

學(xué)習(xí)到的與先知低級(jí)別機(jī)器人技能：

本文研究了學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò)技能與先知技能（具有特權(quán)模擬信息）對(duì)PARTNR任務(wù)整體性能的影響。這里為拾取、放置、導(dǎo)航、打開和關(guān)閉動(dòng)作創(chuàng)建了一個(gè)學(xué)習(xí)到的技能庫，并與先知技能進(jìn)行了性能比較。

特權(quán)與非特權(quán)感知：

為了研究諸如檢測(cè)不準(zhǔn)確和定位近似等感知挑戰(zhàn)，使用了帶有修改后的ConceptGraphs的非特權(quán)世界圖，該圖僅根據(jù)agent的RGBD觀測(cè)結(jié)果構(gòu)建。隨著agent的探索和動(dòng)作，這個(gè)世界圖將使用機(jī)載傳感器進(jìn)行更新。相比之下，在特權(quán)感知下，這些信息可以直接從模擬中獲取。

2 Results and Analysis

指標(biāo)。使用四個(gè)關(guān)鍵指標(biāo)來評(píng)估不同設(shè)置下的性能。首先，模擬步數(shù)指標(biāo)衡量了agent在模擬環(huán)境中完成任務(wù)所需的步數(shù)，作為效率的一個(gè)指標(biāo)。其次，成功率反映了任務(wù)的完成情況，即是否滿足“所有”任務(wù)約束。鑒于PARTNR任務(wù)的復(fù)雜性和長期性，agent通常只能部分完成任務(wù)。為了考慮這一點(diǎn)，還報(bào)告了完成百分比，它量化了已完成任務(wù)“命題”的比例（對(duì)于成功的任務(wù)，完成百分比為1）。最后，我們通過規(guī)劃周期指標(biāo)來評(píng)估規(guī)劃器的推理效率，該指標(biāo)計(jì)算每個(gè)規(guī)劃器在一個(gè)情節(jié)過程中進(jìn)行的高級(jí)大型語言模型（LLM）調(diào)用的次數(shù)。在所有實(shí)驗(yàn)中，將規(guī)劃器的最大調(diào)用次數(shù)限制在50次以內(nèi)。

任務(wù)性能分析

表2展示了使用Llama3.1-70B-Instruct模型作為ReAct基線，以及使用微調(diào)后的Llama3.1-8B基礎(chǔ)模型作為微調(diào)基線。由于PARTNR任務(wù)是多agent任務(wù)，還需要一個(gè)模擬的人類伙伴，使用Llama3.1-70B-Instruct模型并通過ReAct方法對(duì)其進(jìn)行控制。主要發(fā)現(xiàn)如下所述。

基于LLM的規(guī)劃器在處理PARTNR任務(wù)時(shí)面臨挑戰(zhàn)。在所有可觀察性和可控性條件下，基于LLM的基線性能均不如具有特權(quán)的啟發(fā)式專家，原因是任務(wù)跟蹤中出現(xiàn)錯(cuò)誤（未完成所有步驟、步驟順序錯(cuò)誤或撤銷已完成的步驟），以及語義錯(cuò)誤（將對(duì)象放置在錯(cuò)誤的家具上或移動(dòng)錯(cuò)誤的對(duì)象），這表明LLM在任務(wù)規(guī)劃方面存在差距。

LLM在分散式設(shè)置中的協(xié)調(diào)方面表現(xiàn)不佳。沒有特權(quán)訪問伙伴意圖的分散式ReAct基線在任務(wù)完成速度上顯著慢于集中式ReAct。這表明，對(duì)伙伴進(jìn)行推理（例如，了解或推斷伙伴的意圖）可以提高PARTNR任務(wù)的效率，而當(dāng)前最先進(jìn)的LLM在這方面表現(xiàn)不佳。此外，有兩個(gè)agent的分散式ReAct甚至慢于單個(gè)agent的ReAct（行(e)中的多agent需要3295步，而行(a)中的單agent需要2519步），這表明LLM在協(xié)調(diào)方面承受著巨大的“負(fù)擔(dān)”。在4.2.2節(jié)關(guān)于額外努力的分析中，我們進(jìn)一步強(qiáng)調(diào)了這種協(xié)調(diào)負(fù)擔(dān)，我們發(fā)現(xiàn)，在分散式設(shè)置中，agent最終會(huì)更高頻率地重復(fù)任務(wù)的部分內(nèi)容或執(zhí)行不相關(guān)的動(dòng)作。

LLM（大型語言模型）無法從已學(xué)習(xí)技能的失敗中恢復(fù)。當(dāng)用已學(xué)習(xí)技能替換Oracle技能時(shí)，成功率從0.73下降到0.57（行(e)對(duì)比行(h)）。這種下降可以歸因于，與具有特權(quán)的Oracle技能相比，已學(xué)習(xí)技能的失敗率更高，且所需的模擬步驟更多。LLM在應(yīng)對(duì)技能錯(cuò)誤（如未能拾取物體或執(zhí)行不完整的探索）時(shí)難以恢復(fù)，從而導(dǎo)致成功率降低。未來的研究可以探索訓(xùn)練包含低級(jí)技能循環(huán)的大型模型，使它們能夠在面對(duì)此類失敗時(shí)學(xué)習(xí)恢復(fù)和重新規(guī)劃策略。

LLM對(duì)感知錯(cuò)誤表現(xiàn)出高度敏感性。當(dāng)用現(xiàn)成的感知模塊替換具有特權(quán)的感知時(shí)，成功率顯著下降（從行(h)中具有特權(quán)、部分世界圖的0.57下降到行(i)中使用Concept-Graphs的0.30）。LLM嚴(yán)重依賴世界圖提供的準(zhǔn)確世界描述，并且難以糾正諸如誤分類（例如，將架子誤認(rèn)為是桌子）或房間分配錯(cuò)誤（例如，將客廳的桌子錯(cuò)誤地標(biāo)記為在臥室）等錯(cuò)誤。像VLM（視覺語言模型）這樣的多模態(tài)模型可能在從這類失敗中恢復(fù)方面更強(qiáng)大，這留待未來的工作來研究。

微調(diào)后的8B模型在性能上與使用70B模型的ReAct相當(dāng)，但推理速度卻快了8.6倍。我們發(fā)現(xiàn)，使用較小8B模型的微調(diào)規(guī)劃器與使用更大70B模型的ReAct性能相當(dāng)（在行(e)中，70B模型的成功率為0.73，而在行(g)中，微調(diào)后的8B模型的成功率為0.70）。同時(shí)發(fā)現(xiàn)微調(diào)模型在推理速度上快了8.6倍。這表明微調(diào)有效地從訓(xùn)練集中提取了與任務(wù)相關(guān)的信息，并將其泛化到新的測(cè)試任務(wù)中。當(dāng)與人類共同部署時(shí)，微調(diào)模型所需的步驟更少，并且能夠分擔(dān)比70B模型更多的子任務(wù)（見表3）。

協(xié)作行為與效率分析

表2中的分析揭示了大型語言模型（LLM）在協(xié)作中面臨的挑戰(zhàn)，這促使我們更深入地研究具體的協(xié)作行為。

機(jī)器人承擔(dān)了高達(dá)60%的任務(wù)。我們?cè)u(píng)估了機(jī)器人在從人類那里分擔(dān)任務(wù)方面的能力，具體方法是測(cè)量在成功的PARTNR任務(wù)中，機(jī)器人執(zhí)行的子任務(wù)占總子任務(wù)的比例。盡管單智能體和多智能體的成功率相似（0.73對(duì)比0.74），但在去中心化的多智能體環(huán)境中，機(jī)器人承擔(dān)了約60%的子任務(wù)，從而減輕了人類的負(fù)擔(dān)。

去中心化的智能體容易執(zhí)行多余的任務(wù)。智能體有時(shí)會(huì)執(zhí)行對(duì)任務(wù)無用的子任務(wù)，如重新排列任務(wù)中不需要的物體或重復(fù)另一個(gè)智能體已經(jīng)完成的子任務(wù)。為了衡量這種多余的努力，我們計(jì)算了在一次任務(wù)中，智能體的無效動(dòng)作（即未增加任務(wù)完成百分比、未對(duì)任務(wù)進(jìn)展做出貢獻(xiàn)的動(dòng)作）占總成功動(dòng)作的比例。我們發(fā)現(xiàn)，與單智能體相比，在去中心化的多智能體環(huán)境中，無效努力增加了300%（見表12），這表明協(xié)調(diào)負(fù)擔(dān)顯著增加。

時(shí)間和異構(gòu)任務(wù)對(duì)LLM來說具有挑戰(zhàn)性。LLM在時(shí)間和異構(gòu)任務(wù)上表現(xiàn)困難。與ReAct的無約束任務(wù)相比，時(shí)間任務(wù)的成功率下降了27%，異構(gòu)任務(wù)的成功率下降了20%（見表13）。這凸顯了LLM在推理智能體能力和遵循嚴(yán)格順序約束方面的局限性。

人機(jī)交互評(píng)估

我們基于Habitat 3.0中的Human-in-the-loop基礎(chǔ)設(shè)施進(jìn)行了構(gòu)建，并將其調(diào)整為服務(wù)器-客戶端架構(gòu)，其中服務(wù)器托管在AWS上，能夠支持多個(gè)客戶端。這使我們能夠使用129名非專業(yè)人類參與者對(duì)任務(wù)進(jìn)行大規(guī)模評(píng)估。使用該工具從驗(yàn)證集和測(cè)試集中收集了1000個(gè)任務(wù)的單用戶和多用戶數(shù)據(jù)。在單用戶設(shè)置中，一名參與者通過鍵盤/鼠標(biāo)控制在模擬器中的人類角色來完成整個(gè)任務(wù)（附錄中的圖14展示了我們的HITL界面）。在多用戶設(shè)置中，兩名參與者分別控制一個(gè)人類角色和一個(gè)機(jī)器人角色來共同完成任務(wù)。這些實(shí)驗(yàn)的目的是研究PARTNR任務(wù)中的多用戶動(dòng)態(tài)，并觀察多名人類協(xié)作是否比單個(gè)人類更高效。最后，我們進(jìn)行了一項(xiàng)人機(jī)實(shí)驗(yàn)，其中一名人類參與者與由大型語言模型（LLM）控制的機(jī)器人協(xié)作。該實(shí)驗(yàn)旨在評(píng)估LLM控制的智能體在與未見過的真實(shí)人類協(xié)作時(shí)的表現(xiàn)。表3顯示了驗(yàn)證集中任務(wù)在單用戶、多用戶、人類-ReAct和人類-微調(diào)設(shè)置下的成功率（SR）和完成百分比（PC）。此外，我們還測(cè)量了每種方法完成任務(wù)所需的步數(shù)，以及機(jī)器人完成的工作量比例（即任務(wù)分擔(dān)）。我們還通過測(cè)量選擇第一個(gè)對(duì)象所需的步數(shù)和無用努力（指對(duì)任務(wù)完成沒有幫助的動(dòng)作）來衡量人在回路中的探索效率。這些結(jié)果總結(jié)在表3中。

人類在PARTNR任務(wù)上的表現(xiàn)明顯優(yōu)于LLM。在單人和多人環(huán)境中，人類在PARTNR基準(zhǔn)上的成功率均為0.93。相比之下，沒有任何特權(quán)信息的ReAct模型的成功率顯著降低至0.30（表2的第(i)行）。這凸顯了LLM在規(guī)劃任務(wù)性能上的巨大差距。值得注意的是，當(dāng)與真實(shí)人類一起評(píng)估時(shí)，像ReAct和微調(diào)這樣的LLM基線模型的成功率分別為0.92和0.91（表3），因?yàn)槿祟惸軌蜻m應(yīng)LLM的錯(cuò)誤。另一方面，表2中的模擬人類是一個(gè)LLM，它無法從合作伙伴的錯(cuò)誤中恢復(fù)。

在與真實(shí)人類協(xié)作時(shí)，微調(diào)后的LLM表現(xiàn)優(yōu)于ReAct。當(dāng)與真實(shí)人類在回路中一起部署時(shí)，微調(diào)模型在任務(wù)完成上比ReAct更快（微調(diào)模型3443步，ReAct 4267步）。它還能從人類那里分擔(dān)更多任務(wù)（微調(diào)模型26%，ReAct 16%）。這表明具有更快推理速度的小型模型可以改善真實(shí)世界部署中的人類體驗(yàn)。

LLM在協(xié)調(diào)方面存在困難，阻礙了人類的表現(xiàn)。盡管在與人類協(xié)作時(shí)微調(diào)模型比ReAct更快，但兩種方法都比人類單獨(dú)完成任務(wù)要慢。相比之下，兩名人類一起工作比單個(gè)人類完成任務(wù)更快（多人2369步，單人3046步）。這一結(jié)果與我們?cè)诒?中觀察到的自動(dòng)化評(píng)估結(jié)果一致，其中多智能體LLM也比單智能體LLM更慢。這一結(jié)果進(jìn)一步證實(shí)，LLM在協(xié)調(diào)方面存在問題；而人類能夠相互協(xié)調(diào)并分配任務(wù)，但去中心化的LLM卻無法做到這一點(diǎn)。

LLM能夠從人類那里分擔(dān)任務(wù)。盡管上述任務(wù)完成步數(shù)有所增加，但由微調(diào)模型指導(dǎo)的機(jī)器人成功地從人類那里分擔(dān)了26%的任務(wù)。這表明，在與真實(shí)人類合作伙伴協(xié)作時(shí)，LLM仍然能夠提供幫助。盡管如此，仍有很大的改進(jìn)空間。

一些結(jié)論

PARTNR是一個(gè)針對(duì)多智能體實(shí)體任務(wù)中的推理與規(guī)劃基準(zhǔn)，其特點(diǎn)是在60個(gè)模擬的多房間房屋中實(shí)例化了100,000項(xiàng)自然語言任務(wù)，這些房屋中包含5,819個(gè)獨(dú)特物體。我們采用半自動(dòng)化的基于大型語言模型（LLM）的pipeline，用于大規(guī)模指令和評(píng)估功能的生成，該過程使用了基于模擬的循環(huán)接地技術(shù)。PARTNR展現(xiàn)了日常任務(wù)的特點(diǎn)，如時(shí)間和空間的限制，并允許對(duì)規(guī)劃方法進(jìn)行系統(tǒng)評(píng)估。我們發(fā)現(xiàn)，在PARTNR任務(wù)上，當(dāng)前最先進(jìn)的LLM與人類水平的性能之間存在顯著差距。盡管我們最佳的LLM基線在沒有特權(quán)信息的情況下僅成功完成了30%的任務(wù)，但人類卻能解決93%的任務(wù)。此外，LLM在與基于LLM的智能體以及真實(shí)人類伙伴的協(xié)調(diào)中都面臨著挑戰(zhàn)。人類參與的評(píng)估（即真實(shí)人類與LLM指導(dǎo)的機(jī)器人合作）表明，與單獨(dú)工作相比，LLM指導(dǎo)的伙伴會(huì)降低人類的工作效率。這表明，基于LLM的智能體需要顯著改進(jìn)，才能在實(shí)體任務(wù)中成為有效的合作伙伴。PARTNR作為一個(gè)具有挑戰(zhàn)性的基準(zhǔn)，凸顯了當(dāng)前模型的重大局限性。

責(zé)任編輯：張燕妮來源：自動(dòng)駕駛之心

智能體模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

99国产精品久久久久久久| 波多野结衣欧美| 亚洲九九爱视频| 国产91社区| 在线永久看片免费的视频| jiujiure精品视频播放| 日韩精品一区二区三区在线播放| 久久中文字幕在线| 国产免费a级片| 五月天婷婷在线视频| 国产在线一区二区| 97视频在线观看视频免费视频 | 亚洲伦在线观看| 国产美女精品久久久| 日韩一级av毛片| 国产成人免费av一区二区午夜| 亚洲香蕉伊在人在线观| 日韩av电影免费播放| 国产成人久久精品77777综合| 亚洲欧美成人| 欧美成人全部免费| 中文日韩欧美| 午夜不卡影院| 亚洲色图欧洲色图| 日本一区二区三区视频在线播放| 成人av手机在线| 日韩成人午夜电影| 影音先锋欧美精品| 天天躁日日躁狠狠躁av麻豆男男| 成人亚洲网站| 欧美性猛交xxxx免费看| 成人免费看片'免费看| 精品99又大又爽又硬少妇毛片| 先锋亚洲精品| 久久久噜噜噜久噜久久| 精品少妇人妻av一区二区三区| 欧美va在线观看| 精品国产91久久久| 久久人人爽人人爽人人av| 日本在线免费网| 国产欧美一区二区三区沐欲| 精品伦精品一区二区三区视频| 性做久久久久久久| 国产一区二区伦理| 91久久精品在线| 亚洲视频久久久| 奇米在线7777在线精品| 国产激情视频一区| 无码一区二区三区| 日韩制服丝袜av| 日本久久久久久久久| 在线观看亚洲欧美| 国产精品亚洲欧美| 青草青草久热精品视频在线观看| 日韩成年人视频| av成人激情| 4438全国成人免费| 91精品国产高清一区二区三密臀| 99国产精品视频免费观看一公开| 久久久久久成人精品| 久久久久97国产| 亚洲电影av| 欧美专区在线观看| 亚洲黄色免费观看| 日本欧美一区二区三区| 国产精品成人国产乱一区 | 日本aⅴ在线观看| 五月精品视频| 欧美精品激情在线观看| 日本三级中文字幕| 久久久久久久欧美精品| 国产精品久久久久久av| 国产精品久久久久久69| 国产成人丝袜美腿| 麻豆久久久av免费| a黄色在线观看| 亚洲欧美另类久久久精品| www.国产在线视频| 黑人巨大精品| 欧美久久久久久蜜桃| 香蕉视频在线观看黄| 国产精品1luya在线播放| 日韩你懂的在线播放| 久久人人妻人人人人妻性色av| 国内毛片久久| 中文字幕在线成人| 久久久久黄色片| 久久久久看片| 91网站在线看| 青青草超碰在线| 中文字幕亚洲不卡| 夜夜添无码一区二区三区| 91精品影视| 欧美成人免费网站| 一区二区三区伦理片| 欧美一区网站| 国产成人鲁鲁免费视频a| 国产精品羞羞答答在线| 97久久人人超碰| 热这里只有精品| 日韩欧美精品一区二区三区| 欧美日韩成人综合在线一区二区| 香港三日本8a三级少妇三级99| 精品免费视频| 国内免费久久久久久久久久久| av首页在线观看| 粉嫩av一区二区三区| 神马影院我不卡| 黑人精品视频| 亚洲欧美视频一区| 久久久噜噜噜www成人网| 国产精品亚洲四区在线观看| 日韩成人在线观看| 伊人网综合视频| 国产精品久久久久久久免费观看| 97精品在线视频| 99精品在线视频观看| 国产亚洲1区2区3区| 国产精品无码免费专区午夜| 激情久久一区二区| 亚洲欧美色婷婷| 日韩精品久久久久久久酒店| 精品成人在线| 国产日韩综合一区二区性色av| 欧美色综合一区二区三区| 一区二区在线看| 最新中文字幕免费视频| 日日天天久久| 97婷婷涩涩精品一区| 国产特黄一级片| 国产精品人妖ts系列视频| 日韩av黄色网址| 欧美成人一区在线观看| 日韩电影中文亚洲精品乱码| 国产日韩欧美在线观看视频| 蜜臀av性久久久久蜜臀aⅴ流畅 | 伊人五月天婷婷| 欧美一区二区三区激情视频| 中文字幕亚洲情99在线| 欧美黑人一区二区| 91在线云播放| 男人天堂1024| 亚洲香蕉视频| 中文字幕一精品亚洲无线一区| 成人在线免费看视频| 国产原创一区二区三区| 中文字幕一区二区三区有限公司 | 91精品在线麻豆| 久久国产高清视频| 激情婷婷久久| 国产精品国产精品国产专区蜜臀ah | 97se亚洲国产综合自在线不卡 | 亚洲国产成人精品久久久国产成人一区| 免费在线观看a级片| 国内欧美视频一区二区| 中国免费 av| 亚洲精品福利| 97久久精品人搡人人玩| 色就是色亚洲色图| 在线观看日韩电影| 国产wwwwxxxx| 国产一区二区三区免费在线观看| 女人床在线观看| 懂色av一区二区| 日韩av免费在线观看| 成人影视在线播放| 欧美一区二区福利视频| 日本五十熟hd丰满| 久久久亚洲精品一区二区三区| 色诱视频在线观看| 国产高清一区| 俄罗斯精品一区二区三区| 大桥未久在线播放| 亚洲日本欧美中文幕| 91av久久久| 亚洲福利视频一区二区| av男人的天堂av| 精品一区二区在线播放| 俄罗斯av网站| 日韩综合在线| 国产日韩精品一区观看| 日韩电影免费观看高清完整版| 久久精品国产亚洲精品2020| 国产综合视频在线| 欧美三级一区二区| 国产亚洲精品女人久久久久久| 久久久亚洲午夜电影| 一区二区三区四区毛片| 亚洲国产精品一区| 午夜精品短视频| 国产suv精品一区二区四区视频| 欧洲亚洲免费在线| 中文在线手机av| 亚洲欧美国产高清va在线播| 99久久精品国产色欲| 欧美日韩一区免费| 在线中文字日产幕| 日韩影院免费视频| 日韩一级性生活片| 91九色精品| 欧美色欧美亚洲另类七区| 自拍偷拍欧美日韩| 日本韩国在线不卡| 污污视频在线| 日韩在线视频观看正片免费网站| 国产成人三级在线观看视频| 欧美日本一道本| 天天综合网入口| 一区二区三区四区蜜桃| 中文字幕网站在线观看| 成人一区二区三区| 制服丝袜中文字幕第一页| 久久精品免费| www.avtt| 在线电影一区二区| 色女人综合av| 综合国产视频| 国产欧美日韩在线播放| 日本在线视频一区二区三区| 国产精品国产福利国产秒拍| 高清视频在线观看三级| 欧美黑人视频一区| 国产福利资源在线| 欧美日韩国产123区| 国产免费一区二区三区四区五区| 亚洲成人资源网| 欧美xxxx黑人xyx性爽| 1024亚洲合集| 俄罗斯毛片基地| 国产欧美日韩精品在线| mm131美女视频| 91影院在线观看| 中文字幕在线播放一区| 成人综合婷婷国产精品久久免费| 91香蕉视频免费看| 国产精品一级二级| 亚洲少妇30p| 久久国产高清视频| 亚洲天堂成人网| 黄视频网站免费看| 亚洲人成影院在线观看| 欧美一级特黄高清视频| 国产精品的网站| 自拍偷拍第9页| 国产精品国产三级国产a | 中文字幕一区二区三区在线不卡| 性の欲びの女javhd| 国产欧美精品区一区二区三区| 在线免费观看视频| 国产精品嫩草99a| 波多野结衣喷潮| 亚洲美女视频在线观看| 久久久久亚洲AV成人| 夜色激情一区二区| 国产精品第108页| 99热精品国产| 3d动漫精品啪啪一区二区下载| 99国产精品久| 一本色道久久综合亚洲精品图片| 久久久夜色精品亚洲| 亚洲一级片在线播放| 一区在线观看视频| 日韩黄色免费观看| 亚洲自拍偷拍九九九| 久久夜靖品2区| 色噜噜久久综合| 一级特黄色大片| 欧美大片顶级少妇| 四虎影院在线播放| 日韩在线观看免费高清| 无码国产伦一区二区三区视频| 日韩精品一二三四区| 超碰在线国产| 欧美激情视频网址| 日韩久久一区二区三区| 亚洲bt欧美bt日本bt| 欧美wwwwww| 福利网在线观看| 免费精品视频| 国产毛片久久久久久| 97精品久久久午夜一区二区三区 | 福利片在线观看| 亚洲精品mp4| 成a人片在线观看www视频| 久久av在线看| 亚洲涩涩在线| 91久久嫩草影院一区二区| 蜜桃一区av| 韩国成人动漫在线观看| 九九在线高清精品视频| 中文字幕一区二区三区四区五区人| 韩国在线视频一区| 丝袜制服一区二区三区| 岛国精品在线观看| 糖心vlog免费在线观看| 欧美日韩国产页| 国产强被迫伦姧在线观看无码| 日韩精品免费一线在线观看| 麻豆tv入口在线看| 青青久久av北条麻妃海外网| 国产日韩在线观看视频| 欧美自拍资源在线| 亚洲欧洲一区| 亚洲一区二区三区三州| 国产亚洲综合性久久久影院| 久久久久亚洲av成人片| 欧美日韩你懂得| 九色蝌蚪在线| 久久免费少妇高潮久久精品99| 性欧美video另类hd尤物| 欧美日韩国产免费一区二区三区 | 欧美风情在线观看| 亚洲ww精品| 五月天丁香综合久久国产| 9国产精品视频| 日韩Av无码精品| 亚洲另类一区二区| 亚洲最新av网站| 影音先锋日韩有码| 亚洲不卡系列| 美女主播视频一区| 99国产精品久久久久久久 | 国产精品自偷自拍| 亚洲一区二区久久| 日韩免费va| 日本不卡一区二区三区视频| 国产精品嫩草99av在线| 性高潮免费视频| 亚洲一区二区三区四区中文字幕| 97在线公开视频| 精品国偷自产在线视频| 欧美a一级片| 一区二区精品在线| 久久综合综合久久综合| 欧美成人久久久免费播放| 在线亚洲精品福利网址导航| 久蕉依人在线视频| 国产成人高潮免费观看精品| 女人av一区| av免费网站观看| 激情久久五月天| 亚洲欧美精品久久| 欧美日韩大陆一区二区| 看黄网站在线| 91成人免费看| 综合激情一区| 亚洲av综合色区无码另类小说| 一区二区三区四区在线免费观看| 成人片黄色大片| 国内自拍欧美激情| 亚洲免费专区| www.色偷偷.com| 亚洲同性gay激情无套| 91精品国产综合久| 欧美成aaa人片免费看| 91亚洲无吗| 99精品免费在线观看| 国产农村妇女毛片精品久久麻豆| 国产精品无码一区| 久久久精品国产网站| 在线日韩成人| 精品欧美一区免费观看α√| 久久久久国产精品麻豆ai换脸| 瑟瑟视频在线免费观看| 久久久精品国产| 国产精品色在线网站| 日韩欧美在线播放视频| 中文字幕av免费专区久久| 国产精品伦理一区| 性色av一区二区三区免费| 少妇精品久久久| 久久精品亚洲天堂| 五月天激情小说综合| 国产精品久久久久一区二区国产| 国产综合在线观看视频| 在线亚洲欧美在线综合一区| 波多野结衣在线| 欧美日韩成人激情| av在线中出| 一区二区在线观看网站| www.亚洲色图.com| 免费在线不卡av| 久久久久久久久久久久久久久久久久av | 欧美男男青年gay1069videost | 色老汉一区二区三区| 成人影院在线观看| 国产精品偷伦一区二区| 最新欧美人z0oozo0| 狠狠人妻久久久久久综合蜜桃| 欧美日韩一级视频| 国产在线精彩视频| 亚洲国产精品影视| 91蝌蚪porny| av中文字幕免费在线观看| 欧洲美女免费图片一区| 亚洲中无吗在线| 欧美激情视频二区| 亚洲精品国精品久久99热一| 精品国产亚洲一区二区三区大结局| 成人免费观看毛片|