精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

400萬人圍觀的分層推理模型,「分層架構」竟不起作用?性能提升另有隱情?

人工智能 新聞
鑒于該方法的普及度和新穎性,來自 ARC PRIZE 團隊的研究者著手在 ARC-AGI-1 半私有數據集(一個用于驗證解決方案是否過擬合的隱藏保留任務集)上驗證 HRM 的性能。

還記得分層推理模型(Hierarchical Reasoning Model,HRM)嗎?

這項工作于 6 月份發布,當時引起了不小的轟動——X/Twitter 上的相關討論獲得了超過 400 萬的瀏覽量和數萬個點贊,剖析這項工作的 YouTube 視頻觀看量也超過了 47.5 萬次。

b38f0cb5-c1e4-4a70-93da-d9d791775eba.png

在論文中,作者表示:他們提出了一種受大腦啟發的 HRM 架構,僅用 1000 個訓練任務和一個 2700 萬參數(相對較小)的模型,就在 ARC-AGI-1 基準上取得了 41% 的得分。

論文還指出,這一架構有潛力成為邁向通用計算和通用推理系統的變革性進展。

鑒于該方法的普及度和新穎性,來自 ARC PRIZE 團隊的研究者著手在 ARC-AGI-1 半私有數據集(一個用于驗證解決方案是否過擬合的隱藏保留任務集)上驗證 HRM 的性能。

他們的發現有些出人意料。

首先:他們能夠近似復現論文中聲稱的數字。HRM 在 ARC-AGI 半私有集上的表現,就其模型大小而言,令人印象深刻:

  • ARC-AGI-1:32%——雖然不是 SOTA 水平,但對于如此小的模型來說,這已經非常出色。
  • ARC-AGI-2:2%——盡管得分大于 0% 顯示出一些積極信號,但 ARC PRIZE 團隊不認為這在 ARC-AGI-2 上取得了實質性進展。

與此同時,通過運行一系列消融分析,他們得到了一些令人驚訝的發現,這些發現對圍繞 HRM 的主流論述提出了質疑:

  1. 與同等規模的 Transformer 相比,其「分層」架構對性能的影響微乎其微。
  2. 然而,論文中相對提及較少的「外循環」優化過程,尤其是在訓練期間,極大地提升了性能。
  3. 跨任務遷移學習的益處有限;大部分性能來自于對評估時所用特定任務解決方案的記憶。
  4. 預訓練的任務增強至關重要,盡管只需 300 次增強就已足夠(而非論文中報告的 1000 次)。推理時的任務增強影響有限。

發現 2 和 3 表明,該論文的方法在根本上與 Liao 和 Gu 提出的「無預訓練的 ARC-AGI」方法相似。

有人認為,ARC PRIZE 團隊的這些分析結果表明,HRM 是一個失敗的探索。

62416a74-862c-4c23-aa7d-97f42c92dd47.png

但更多人反駁說,與在同一基準上表現類似的模型相比,HRM 要小得多。雖然分層架構的作用沒有得到驗證,但論文在其他方面的創新依然值得研究,畢竟模型的表現還是很好的。

b4e8bd91-2511-415d-b1f3-00d952050528.png

03c28451-5698-4d11-8b6e-26e01db8f763.png

針對這一分析,ARC PRIZE 團隊專門寫了一篇博客來詳細介紹。以下是博客內容。

a5b72adf-f4a0-4ccf-ae0c-759e46943942.png

  • 博客地址:https://arcprize.org/blog/hrm-analysis
  • Github:https://github.com/arcprize/hierarchical-reasoning-model-analysis

「分層推理模型」回顧

image.png

圖 1:HRM 方法從大腦中不同頻率的信號處理中汲取靈感。

分層推理模型由新加坡 AI 研究實驗室 Sapient 發表,據稱其靈感來源于人腦的分層和多時間尺度處理機制。

HRM 是一個 2700 萬參數的模型,它通過幾次簡短的「思考」脈沖進行迭代優化。

每次脈沖產生:

  • 一個預測輸出網格——這是模型對 ARC-AGI 任務的「處理中」預測。
  • 一個「停止或繼續」得分——該得分決定是繼續優化預測還是將其作為最終結果提交。

如果模型選擇繼續優化,這個「處理中」的預測會再次經過一個「思考」脈沖。這就是外循環:預測、詢問「我完成了嗎?」,然后停止或繼續優化。

在外循環內部,HRM 運行兩個耦合的循環模塊:「H」(慢速規劃器)和「L」(快速執行器)。這兩個模塊協同工作,共同更新一個共享隱藏狀態,而非各自產生獨立的輸出。其最終效果是模型在「規劃」(H)和「細節」(L)之間交替進行,直到內部狀態「自我達成一致」并產生答案。

該模型使用一個學習到的「停止」信號,這是一種自適應計算機制,用于控制優化的次數。

這個過程的一個關鍵部分是任務增強。這是一個對每個任務應用變換(如對象旋轉、翻轉等)的過程,目的是挖掘出任務的潛在規則,而不是對特定的形狀或顏色產生過擬合。

在測試時,模型會運行相同的增強來生成預測。這些預測隨后被「去增強」(以恢復到原始任務格式),然后通過簡單的多數投票來決定最終的預測結果。

預測是通過轉導(深度學習的直接輸出)在嵌入空間中進行的,而不是通過歸納(生成一個可應用變換的程序)。關于 ARC-AGI 中轉導與歸納的更多信息,請參閱 2024 年 ARC Prize 獲獎論文《結合歸納與轉導進行抽象推理》,作者為 Wen-Ding Li 等人。

ARC-AGI 驗證流程

ARC-AGI 基準有 3 個主要的數據集用于測試:

  • 公開訓練集 - 用于介紹 ARC-AGI 數據格式的公開數據。研究人員在此數據上訓練和迭代模型。
  • 公開評估集 - 供研究人員在訓練后自我評估模型性能的公開數據。
  • 半私有評估集 - 一個保留數據集,用于驗證在 ARC-AGI 上的聲明。該數據集無法在線獲取用于訓練,從而增加了其提供模型性能純凈信號的可信度。它被稱為「半私有」,因為驗證第三方服務(如來自 OpenAI、xAI 的模型)意味著我們無法保證數據永遠完全保密,并且計劃最終會替換它。

除了這些數據集類型,ARC-AGI 目前有 2 個已發布的版本:

  • ARC-AGI-1——2019 年,旨在挑戰深度學習系統。
  • ARC-AGI-2——2025 年,旨在挑戰推理系統。

我們根據測試政策,對像 HRM 這樣的特定定制解決方案進行測試。要獲得驗證資格,解決方案必須開源,運行成本低于 1 萬美元,并在 12 小時內完成。

官方驗證的 HRM ARC-AGI 得分

image.png

圖 2:ARC-AGI-1 排行榜,HRM 性能與每項任務成本。

ARC-AGI-1(100 個任務)

  • 得分:32%,運行時間:9 小時 16 分鐘,總成本:$148.50($1.48 / 任務)

在 ARC-AGI-1 上獲得 32% 的得分,對于如此小的模型來說是令人印象深刻的。從 HRM 聲稱的公開評估集得分(41%)下降到半私有集得分,這種輕微的下降是預料之中的。ARC-AGI-1 的公開集和半私有集并未進行難度校準。觀察到的 9 個百分點的下降幅度處于正常波動的偏高范圍。如果模型對公開集過擬合,其在半私有集上的性能可能會崩潰(例如,降至 10% 或更低)。但我們并未觀察到這種情況。這個結果表明,HRM 確實有一些值得關注的亮點。

注意:運行 HRM 的成本相對較高,是因為訓練和推理被耦合在單次運行中。論文作者提到他們正在努力解耦這個過程,以便將其解決方案提交給 ARC Prize 2025 Kaggle 競賽。

ARC-AGI-2(120 個任務)

  • 得分:2%,運行時間:12 小時 35 分鐘,總成本:$201($1.68 / 任務)

ARC-AGI-2 明顯比 ARC-AGI-1 更難,因此性能大幅下降是預料之中的。與 ARC-AGI-1 不同,ARC-AGI-2 的公開集和半私有集是經過難度校準的。原則上,兩者上的得分應該相似。盡管大于 0% 的得分顯示出模型的某些能力,但我們不認為 2% 的得分是在 ARC-AGI-2 上取得的有意義的進展。

注意:我們選擇包含 10 個可選的檢查點(每個約 5 分鐘),總共增加了約 50 分鐘。雖然 HRM 的提交超出了 12 小時的運行限制,我們仍然認為它是有效的。

分析 HRM 對 ARC 得分的貢獻

在更深入的分析中,我們最想回答的問題是:「HRM 架構中對 ARC-AGI 的成功貢獻最大的關鍵組件是什么?」

我們仔細研究了 HRM 論文的 4 個主要組成部分:HRM 模型架構、H-L 分層計算、外層優化循環,以及數據增強的使用。Ndea 研究員 Konstantin Schürholt 主導了這項分析。

我們測試了:

  • 「分層」H 和 L 循環的性能貢獻

    相比于基礎的 Transformer,HRM 提供了多少性能提升?

    改變分層計算的參數有何影響?

  • 改變最大「停止或繼續」循環次數

    自適應計算時間(ACT)評分器與固定循環次數(沒有停止決策)相比表現如何?

  • 跨任務遷移學習的影響

    與僅在評估任務上訓練相比,在訓練時加入訓練集任務和 ConceptARC 任務有何影響?

  • 增強數量

    改變從每個任務創建的增強數量。

  • 模型/訓練的變體(大小和時長)

發現 1:與同等規模的 Transformer 相比,「分層」架構對性能的影響微乎其微

論文提出,HRM 架構是實現分層推理的關鍵——結合了慢節奏的指導(H-level)和快節奏的思考(L-level)。

為了理解該架構的影響,我們進行了 2 個實驗:

  • 改變分層組件中的迭代次數。
  • 將 HRM 模型替換為類似規模的 Transformer。

為便于比較,該 Transformer 擁有與 HRM 模型相同的參數數量(約 2700 萬)。在所有實驗中,我們保持 HRM 流程的其他所有組件不變。

將 HRM 與常規 Transformer 進行比較,得到了兩個有趣的結果,見圖 3。首先,一個常規的 Transformer 在沒有任何超參數優化的情況下,性能與 HRM 模型相差約 5 個百分點。當只有一個外循環時,差距最小,此時兩個模型的性能不相上下。

image.png

圖 3:HRM 模型和相同尺寸的 Transformer 在不同外循環步數下的 pass@2 性能。Transformer 在沒有任何超參數優化的情況下,性能與 HRM 相差幾個百分點。

當外循環次數多于 1 次時,HRM 表現更好,但隨著外循環次數的增加,差距會縮小。請注意,盡管參數數量匹配,HRM 使用了更多的計算資源,這可能部分解釋了性能差異。增加計算資源帶來的好處可能會隨著外循環次數的增多而出現收益遞減,這與我們的結果相符。

我們進一步改變了 H-level 和 L-level 的步數來分析其影響。我們發現,增加或減少迭代次數(基線為 L = 2, H = 2)都會導致性能下降。

這些結果表明,在 ARC-AGI 上的性能并非 HRM 架構本身帶來的。雖然它確實提供了一點好處,但在 HRM 訓練流程中換用一個基線 Transformer 也能達到相當的性能。

發現 2:論文中提及較少的「外循環」優化過程帶來了顯著的性能提升

除了分層架構,HRM 論文還提出在模型外部使用一個外循環(「循環連接」)。這將模型的輸出反饋給自己,允許模型迭代地優化其預測。

此外,它使用「自適應計算時間」(ACT)來控制在特定任務上花費的迭代次數。ACT 決定是停止預測還是繼續優化。

HRM 方法的這一部分類似于 Universal Transformer,后者既有圍繞 Transformer 模型的循環優化循環,也有一個 ACT 的版本。

在我們的第二組實驗中,我們想了解外層優化循環以及 ACT 對整體性能的影響。我們改變了訓練期間的最大外循環次數,并在推理時使用最大循環次數(遵循 HRM 的實現)。

image.png

圖 4:在不同數量的訓練和推理優化循環下的 pass@2 性能。通過迭代優化數據會產生強大的影響,正如從 1 次循環(無優化)到 2 次循環(1 次優化)的性能飛躍所示。

如圖 4 所示,外循環的次數對模型性能有顯著影響——從無優化(1 次循環)到僅 1 次優化,性能躍升了 13 個百分點。從 1 次優化循環增加到 8 次,公開評估集上的性能翻了一番。

一個次要發現是,在訓練期間使用 ACT 確實能減少每個任務的實際優化步數。然而,雖然使用 ACT 能提高性能,但與固定的 16 次循環運行相比,差異僅在幾個百分點之內。

結果表明,優化外循環是 HRM 性能的關鍵驅動力。

為了理解訓練時優化與推理時優化的影響,我們進一步獨立地改變了推理優化循環的次數。

image.png

圖 5:在不同數量的推理優化循環下的 pass@2 性能。藍色條表示使用相同循環次數進行訓練和推理的模型。橙色條表示使用 16 個優化循環訓練,但在推理時使用不同循環次數的模型。例如,1-Loop 處的藍色條表示用一個優化步驟訓練并用一個優化步驟推理的模型。橙色條表示用 16 個優化步驟訓練但僅用一個優化步驟推理的模型。

為此,我們比較了兩種設置。第一種,我們在訓練和推理中使用相同數量的優化循環。第二種,我們用最多 16 個優化循環步驟訓練一個模型,并分別用 1、4、8 和 16 個優化步驟來評估它。

比較這兩類模型顯示出實質性差異,尤其是在低推理優化步數(1 和 4)時,見圖 5。用更多的優化步驟進行訓練,可以將單次優化循環預測的性能提高超過 15 個百分點,盡管一次循環意味著沒有任何優化的單次前向傳播。在推理時增加更多的優化循環,影響則沒有那么大。這表明,帶優化的訓練比在推理時使用優化更重要。

發現 3:跨任務遷移學習的影響有限

在原始論文中,HRM 在 960 個任務的演示對的增強版本上進行訓練:

  • 來自 ARC-AGI-1 訓練集的 400 個任務。
  • 來自密切相關的 ConceptARC 基準的 160 個任務。
  • 來自 ARC-AGI-1 評估集的 400 個任務,這些任務也是評估時要解決的目標。

需要注意的是,這并不意味著數據泄露,因為模型在訓練時從未看到評估任務的測試對——而這正是模型被評估的內容。

我們想了解跨任務遷移學習與推斷并記憶評估時特定任務的解決方案相比,其影響如何。我們進行了以下實驗:我們只在 400 個評估任務上進行訓練——去掉了來自訓練集的 400 個任務和來自 ConceptARC 數據集的 160 個任務。

在這種設置下,模型達到了 31% 的 pass@2 準確率,與最初的 41% 相比僅有小幅下降。這表明,絕大部分性能是由在評估時見過的任務上進行訓練所驅動的。這意味著 HRM 的做法本質上是一種零預訓練的測試時訓練方法,類似于 Liao 和 Gu 的「無預訓練的 ARC-AGI」。這相當于將模型用作一種程序合成基底——在任務的演示對上使用梯度下降,將執行該任務的程序編碼到模型的權重中。

值得注意的是,在我們的實驗中,仍然存在一定程度的跨任務遷移學習——在評估集的不同任務之間。我們實驗的一個更強的版本是,在每個評估任務上單獨運行 HRM 流程,這樣模型在訓練時只會看到它將被評估的那一個任務的演示對的增強版本。這將使 HRM 的設置與 Liao 和 Gu 的設置完全一致。我們沒有時間運行這個實驗,但我們推測結果將與 Liao 和 Gu 的(21% pass@2)非常接近。

發現 4:預訓練的任務增強至關重要

我們研究的 HRM 流程中另一個重要組成部分是任務增強。

數據增強是深度學習中一種常用方法,用于增加數據集中的樣本數量并提高模型的泛化能力。這意味著對任務應用旋轉、翻轉或顏色交換,從而在不改變任務基本概念的情況下生成新數據。

HRM 對任務的所有增強版本進行預測,然后將增強后的預測還原(或「去增強」),使其恢復到原始任務格式。然后,模型對這些預測進行多數投票以選出最終候選。

我們測試了對基線 HRM 的以下修改:

  • 編譯數據集時最大增強的數量。
  • 用于多數投票的最大預測數量。

因為 HRM 只能處理訓練期間遇到過的增強類型,所以我們在推理時對第 2 點的改變僅限于減少增強數量,而不能增加。

圖 7 中的結果顯示了兩個趨勢。首先,使用數據增強確實能顯著提高性能。然而,僅使用 300 次增強,而不是論文中使用的 1000 次,就已接近最大性能。僅使用 30 次增強(論文中總數的 3%)的性能與最大性能相差不到 4%。

其次,在訓練期間使用數據增強似乎比為多數投票獲得更大的池子更重要。用更多增強訓練的模型,在用較小池子進行推理時,性能下降得要少得多。

其他技術性學習

深入研究 HRM 的內部機制還帶來了一些其他有趣的發現。

首先也是最重要的一點,HRM 將 ARC-AGI 任務分解為單個的輸入-輸出對,他們稱之為謎題(puzzles)。每個謎題會獲得一個 puzzle_id,它由任務哈希值和應用于此特定謎題的增強代碼組成。

在訓練和推理時,模型只接收輸入和 puzzle_id——沒有包含任務其他輸入-輸出示例的少樣本上下文。HRM 模型必須學會將一個 puzzle_id 與一個特定的轉換關聯起來,以便它能從輸入預測輸出。

為此,它將 puzzle_id 輸入一個大的嵌入層。這個嵌入層是關鍵——沒有它,模型就不知道如何處理輸入。這帶來了一個主要限制:該模型只能應用于它在訓練時見過的 puzzle_id。

在與作者就此話題的交流中,他們解釋說,為少樣本上下文更改謎題嵌入是一個復雜的工程挑戰。在早期版本中,他們做過比較,發現在更大的類 ARC 數據集上,少樣本上下文效果很好,但在樣本受限的 ARC 上,謎題嵌入的表現明顯更好。我們沒有復現這些實驗,但這為未來的工作指明了有趣的方向。

出于同樣的原因,在這個版本的 HRM 中,推理數據必須是訓練數據集的一部分。例如,獨立地改變增強數量并不是一件直接的事情。

最后,雖然優化循環對性能有明顯影響,但 HRM 是純粹轉導性的。雖然可以展開優化步驟,但底層的程序仍然是隱式的。我們的假設是,這種方法不具備泛化能力。

待解決的問題與未來工作

我們對 HRM 的實驗為我們揭示了其在 ARC-AGI 上表現出色的原因,但其他問題依然存在。除了上面提到的,我們還邀請社區探索以下更多問題:

  • puzzle_id 嵌入對模型性能有多大影響?與將任務中的其余示例作為上下文提供相比如何?
  • HRM 在其訓練數據之外的泛化能力如何?是否有任何方法可以在新數據上微調 HRM?
  • 在推理時,學習到的停止機制有何影響?其好處僅限于節省計算資源,還是也能提高性能?
  • 優化的思想是否能推廣到其他方法,例如合成顯式程序的歸納方法?
  • 通過在每個評估任務上單獨進行訓練和評估,可以達到什么樣的性能?(消除所有跨任務遷移學習。)
  • 哪些特定的增強類型能帶來更高的性能?旋轉?顏色交換?為什么?

結語

來自 ARC Prize 的分析非常詳盡,不少人感嘆說,這才是真正的「同行評審」。

88028134-0e5b-4a15-8b37-19fa3fd4ce83.png

還有人說,這個分析本身和論文一樣重要。如果大家以后能夠更多地用這種方式去分析一些備受關注的研究,相信社區可以更加高效地獲取一些新知識。

2c6d958d-c0af-4a16-bf6a-4d37e08368fa.png

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-15 09:43:33

分層推理模型循環網絡推理

2011-10-18 11:31:33

Power7+服務器

2018-03-07 15:11:04

饑餓營銷顯卡

2015-02-05 16:56:17

2022-01-13 06:49:23

開源項目刪庫

2009-05-13 09:19:30

2015-02-09 15:01:51

IT技術周刊

2023-05-31 08:41:23

分層架構對象模型

2023-11-16 18:53:36

AI人工智能

2023-08-02 08:51:46

服務架構分層架構

2025-07-01 09:08:00

2025-08-11 09:00:00

2025-03-05 00:22:00

2021-05-18 07:33:20

模型分層

2024-09-26 16:43:26

2009-07-27 10:03:02

分層模型網絡故障

2010-07-15 13:54:25

最“搞”服務器

2019-12-10 10:59:11

分層架構項目

2022-06-29 08:00:00

SQL分層表數據

2023-06-16 13:34:00

軟件架構模式
點贊
收藏

51CTO技術棧公眾號

一本大道亚洲视频| 亚洲欧美国产毛片在线| 91高潮精品免费porn| 一二三不卡视频| 成人做爰视频www| 亚洲欧美日韩在线播放| 国产精品一区二区三区在线| 国产又粗又爽视频| 91九色精品| 日韩国产精品视频| www.99r| 色图在线观看| 久久久777精品电影网影网| 国产精品亚洲美女av网站| 久久久久久激情| 国产午夜一区| 欧美不卡一区二区| 中文字幕天天干| 爱搞国产精品| 国产精品的网站| 久久久com| 国产高清第一页| 奇米精品一区二区三区在线观看一| 久久精品国产亚洲一区二区 | 最近在线中文字幕| 亚洲另类在线制服丝袜| 日韩性感在线| 无码国产精品一区二区免费16| 国产专区综合网| 国产精品免费看久久久香蕉| www.av麻豆| 国内精品嫩模av私拍在线观看| 中文字幕av一区中文字幕天堂| 182在线视频| 草草视频在线一区二区| 欧美精品tushy高清| 精品久久久噜噜噜噜久久图片 | 日本成人一区二区三区| 国产成人精品免费网站| 国产欧美日韩中文字幕在线| 中文字幕在线欧美| 国产精品久久久久毛片大屁完整版 | 99爱精品视频| 国产毛片毛片毛片毛片| 美女诱惑一区二区| 国产精品va在线播放| 国产无遮挡呻吟娇喘视频| 亚洲福利久久| 国外成人在线播放| 精品少妇久久久| 黑人一区二区三区四区五区| 欧美日韩国产成人| 欧美人妻精品一区二区免费看| 图片小说视频色综合| www.欧美精品一二三区| 午夜三级在线观看| 香蕉精品视频在线观看| 久久亚洲精品一区二区| 精品人妻伦九区久久aaa片| 婷婷六月综合| 欧美精品在线免费播放| 黄色一级免费视频| 亚洲精品护士| 日本精品久久久久影院| 波多野结衣人妻| 麻豆国产欧美一区二区三区| 国产精品专区第二| 国产伦精品一区二区三区视频痴汉| 久久成人精品无人区| 亚洲一区二区久久久久久| 国产农村妇女毛片精品| 国产91丝袜在线播放九色| 国产日韩欧美一区二区三区四区| 天堂在线视频免费观看| 久久精品欧美日韩精品| 一个色的综合| 日本色护士高潮视频在线观看| 亚洲国产一区视频| 久久国产色av免费观看| 婷婷激情成人| 日韩欧美国产三级电影视频| 国产麻豆剧传媒精品国产av| 国产成人调教视频在线观看 | 黄色免费一级视频| 午夜视频精品| 欧美在线视频网| 亚洲性生活大片| 成人激情黄色小说| 欧美在线播放一区二区| v片在线观看| 欧美性高跟鞋xxxxhd| 天天视频天天爽| 亚洲一区二区三区在线免费| 亚洲精品影视在线观看| av资源在线免费观看| 国产综合色产| 国产精品91视频| 国产黄色免费大片| 国产日韩影视精品| 欧美另类videosbestsex日本| 交100部在线观看| 欧美日韩成人在线| 亚洲av无码一区二区三区网址| 国产国产精品| 欧洲亚洲妇女av| 国产精品自偷自拍| 久久九九国产精品| 日本阿v视频在线观看| 3d性欧美动漫精品xxxx软件| 精品88久久久久88久久久| 99国产精品无码| 欧美亚洲一区| 国产69精品久久久久9999apgf| 成人午夜影视| 欧美日韩在线另类| 熟妇女人妻丰满少妇中文字幕| 经典一区二区| 97视频在线观看免费高清完整版在线观看 | 91丝袜脚交足在线播放| av在线播放免费| 欧美日韩国产专区| 精品人妻人人做人人爽夜夜爽| 欧美日韩一区二区综合| 2019av中文字幕| 亚洲第九十九页| 亚洲欧美自拍偷拍色图| 国产无套内射久久久国产| 成人台湾亚洲精品一区二区| 日韩中文字幕在线看| 69视频免费看| 久久综合九色综合欧美就去吻| 男人天堂a在线| 久久在线观看| 久久综合亚洲社区| 亚洲一区中文字幕永久在线| 久久精品夜色噜噜亚洲a∨| 日韩精品―中文字幕| 一区中文字幕电影| 欧美国产日韩二区| 国产成人久久精品77777综合| 国产精品传媒入口麻豆| 最新天堂中文在线| 日本久久黄色| 国产精品日韩一区| 色哟哟免费在线观看 | 欧美一级裸体视频| 国产精品羞羞答答在线观看| 欧洲亚洲在线视频| 欧美在线一卡| 色香蕉成人二区免费| 黄瓜视频污在线观看| 国产欧美一区二区色老头 | 91亚洲一区| 国产一区二区丝袜高跟鞋图片| 超碰在线国产| 欧美日韩三级一区| 国产黄色录像片| 韩国欧美国产一区| 国产一级大片免费看| 日韩成人在线看| 欧美激情图片区| 日韩中文字幕免费观看| 欧美丝袜美女中出在线| 国产精品20p| 欧美aaa在线| 亚洲最大免费| 日本高清精品| 91精品国产高清自在线看超| 青青草手机在线| 欧美图片一区二区三区| 污软件在线观看| 成人一级片网址| 狠狠操精品视频| 日韩在线第七页| 91在线免费看片| 欧美久久天堂| 最近2019中文字幕第三页视频| 国产毛片在线视频| 亚洲主播在线观看| 毛茸茸多毛bbb毛多视频| 日韩成人一级片| 国产人妻互换一区二区| 国产香蕉精品| 国产精品视频成人| 午夜成年人在线免费视频| 亚洲国产成人一区| 日韩在线视频不卡| 亚洲欧美日韩精品久久久久| 国产香蕉精品视频| 日韩精品久久久久久| 国产一二三四区在线观看| 欧美尿孔扩张虐视频| 国产精品自产拍高潮在线观看| 亚洲综合影视| 亚洲欧美综合v| 99热这里只有精品99| 欧美性生交xxxxxdddd| 天堂а√在线中文在线鲁大师| 9色porny自拍视频一区二区| 中国黄色片免费看| 在线观看日韩av电影| 亚洲高清资源综合久久精品| av不卡一区| 国产精品自在线| 极品美鲍一区| 久久99精品久久久久久噜噜 | 国产男女无套免费网站| 色88888久久久久久影院野外| caoporn91| 国产免费久久精品| 日本三级日本三级日本三级极| 久久精品国产99久久6| 大陆极品少妇内射aaaaa| 亚洲有吗中文字幕| 日本最新一区二区三区视频观看| 国产精品久久久网站| 91亚洲国产成人久久精品网站| 三上悠亚一区二区| 性欧美亚洲xxxx乳在线观看| 国产素人视频在线观看| 一区二区三区四区精品| 性插视频在线观看| 欧美电影精品一区二区| 亚洲一级黄色大片| 欧美性受xxxx| 亚洲第一网站在线观看| 精品久久久久久国产| 在线看成人av| 亚洲午夜电影在线| 久久99久久久| 亚洲免费av观看| 欧美日韩色视频| 国产精品超碰97尤物18| 91在线无精精品白丝| 久久久另类综合| 午夜理伦三级做爰电影| 成人国产免费视频| 精品国产乱码久久久久夜深人妻| 国产很黄免费观看久久| 中文字幕日韩久久| 精品一区二区三区免费观看| 污版视频在线观看| 美女精品一区二区| 蜜桃免费在线视频| 日韩不卡一区二区| 免费一级特黄录像| 男女男精品网站| 911福利视频| 国产一区欧美一区| 色哟哟在线观看视频| 国产91在线观看丝袜| 国产a级片视频| 成人午夜在线播放| 免费日本黄色网址| 久久综合色一综合色88| 亚洲区自拍偷拍| 欧美国产精品中文字幕| 亚洲综合图片一区| 亚洲欧美日韩人成在线播放| 免费一级肉体全黄毛片| 亚洲高清视频中文字幕| www.国产高清| 欧美日韩免费一区二区三区视频 | 日韩成人在线网站| 可以免费看污视频的网站在线| 国产亚洲欧洲黄色| 秋霞成人影院| 欧美黑人巨大精品一区二区| 国产调教在线| 国产精品69av| www.久久草.com| 国产日韩欧美一区二区| 视频国产一区| 青青在线免费视频| 99亚洲精品| 色戒在线免费观看| 成人免费视频播放| 欧美丰满美乳xxⅹ高潮www| 亚洲欧美电影一区二区| www日韩精品| 欧美日韩在线不卡| 不卡av中文字幕| 亚洲色图25p| 超碰免费在线播放| 国产91精品久久久久久久| 成人综合网站| 国产精品一区视频| 日韩1区2区| 精品国产av无码一区二区三区| 久久成人精品| 少妇高潮一69aⅹ| 国产亚洲一本大道中文在线| 久久免费看少妇高潮v片特黄| 五月天丁香久久| 蜜桃精品久久久久久久免费影院| 久草视频在线看| 日韩中文字在线| 国产美女高潮在线观看| 91精品免费久久久久久久久| 黄色网一区二区| 黄色一级片网址| 久久人人97超碰国产公开结果| 黄色一级片免费播放| 久久精品一区二区三区四区| 国产真实夫妇交换视频| 欧美视频日韩视频| 少妇精品高潮欲妇又嫩中文字幕 | 国产精品1区2区3区4区| 亚洲图片一区二区| 91久久久久国产一区二区| 亚洲美女www午夜| 国精产品一区一区三区mba下载| 国产精品丝袜高跟| 偷拍自拍一区| 乱熟女高潮一区二区在线| 另类专区欧美蜜桃臀第一页| 久久亚洲AV成人无码国产野外| 亚洲精品乱码久久久久久久久| 日韩xxx视频| 国产丝袜一区二区三区免费视频| 天天色天天射天天综合网| 国产精品一区久久久| 欧美人与牛zoz0性行为| 国内精品在线观看视频| 国产成人久久精品77777最新版本 国产成人鲁色资源国产91色综 | 一区二区自拍偷拍| 亚洲欧美三级在线| 日韩脚交footjobhd| 国产精品美女诱惑| 欧美日韩国产成人精品| 成人亚洲免费视频| 国产精品色婷婷久久58| 91黑人精品一区二区三区| 亚洲欧美激情视频| 成人小电影网站| 久久五月天婷婷| 亚洲综合日韩| av黄色免费网站| 黑人与娇小精品av专区| 亚洲AV成人无码一二三区在线| 欧美激情xxxx性bbbb| 日韩有吗在线观看| 欧美日韩中文字幕在线播放| 国产精品一区二区在线观看不卡 | 九色蝌蚪在线| 国产成人欧美在线观看| 亚洲最好看的视频| 92看片淫黄大片一级| 久久久午夜精品理论片中文字幕| 日本中文字幕第一页| 亚洲精品小视频| 亚洲精品国产嫩草在线观看| 热re99久久精品国产99热| 日产国产欧美视频一区精品| 五月天精品视频| 欧美色综合网站| 久久精品视频观看| 99久久精品无码一区二区毛片 | 日本成人在线播放| 91在线免费观看网站| 欧美精品首页| 成人性生活免费看| 一本大道久久a久久精品综合| 成人全视频高清免费观看| 91精品在线一区| 精品白丝av| 美女久久久久久久久久| 18国产精品| 亚洲欧洲一区二区在线观看| 精品一区二区三区久久久| 看片网站在线观看| 日韩高清人体午夜| 欧美xxxx网站| 亚洲国产一二三精品无码| www..com久久爱| 久草热在线观看| 欧美日韩国产第一页| 中文字幕亚洲影视| www.久久久久久久久久久| 亚洲图片欧美综合| 国产福利在线观看| 亚洲一区二区免费| 麻豆亚洲精品| 欧美卡一卡二卡三| 亚洲男人天堂手机在线| 国产精品777777在线播放| 欧美精品久久久久久久自慰| 国产婷婷色一区二区三区在线| 国产精品欧美综合亚洲| 亚洲18私人小影院| 欧美激情理论| 中国av免费看| 91麻豆精品国产综合久久久久久| 成人ssswww在线播放| 一区二区三区国| 2020国产精品| 国产激情视频在线播放| 国产精品免费视频xxxx| 国产一区二区你懂的| 欧美精品videos极品|