精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

長上下文語言模型評估體系探析 原創 精華

發布于 2024-11-29 10:22
瀏覽
0收藏

編者按: 如今,AI模型的上下文窗口正以驚人的速度擴大——從2018年的區區512個token到現在的200萬token。這種跨越式發展不僅僅是數字的變化,更代表著全新的應用機會:律師可以讓AI快速分析數千頁的法律文書,醫生能夠基于完整的病歷做出更精準的診斷,研究人員可以同時處理數百篇學術論文...但問題是,我們如何確保這些超長上下文模型真的"理解"了如此龐大的信息量?

作者從三個維度詳細闡述了長上下文模型的評估方法——信息檢索能力評估、深度分析能力評估、上下文學習能力評估。作者基于實際研究案例,系統地展示了這些評估方法的應用場景和局限性。

作者 | Yennie Jun

編譯 | 岳揚

長上下文語言模型評估體系探析-AI.x社區

近年來,語言模型的上下文窗口大小呈指數級增長,此圖由原文作者制作

01 Introduction

大語言模型的上下文窗口 —— 即它們一次性能夠處理的文章長度 —— 一直在以指數級速度增長。

2018 年,BERT[1]、T5[2] 和 GPT-1[3] 等語言模型能夠處理的輸入 token 數量上限為 512 個。而到了 2024 年夏季,這一數字已飆升至 200 萬個 token(在公開可用的 LLMs 中)。這一變化對我們有何影響,我們又該如何評估這些能力越來越強的模型呢?

1.1 大上下文窗口究竟意味著什么?

最新發布的 Gemini 1.5 Pro 模型能夠接收高達 200 萬個 token[4]。但 200 萬個 token 究竟代表什么呢?

假設大約每 4 個單詞轉換為 3 個 token,那么 200 萬個 token 幾乎可以囊括完整的《哈利·波特》和《指環王》系列小說。

長上下文語言模型評估體系探析-AI.x社區

這張圖表展示了 Gemini 1.5 的 200 萬 tokens 上下文窗口能夠容納多少本《哈利·波特》和《指環王》書籍。此圖表部分靈感來源于 2024 年 3 月的這張精彩的信息圖表[5]。該圖由原文作者制作

這些數字指的是公開模型中可用的上下文窗口。盡管 Gemini 1.5 Pro 模型目前公開可用的上下文窗口為 200 萬個 token,但它能夠處理多達 1000 萬個 token[6]。

正如一位 Reddit 用戶所說,這意味著可以將 1000 篇科學論文納入 Gemini 的 1000 萬 token 上下文窗口中,以開展創新研究[7]。

1.2 大上下文窗口為何至關重要?

擴大上下文窗口的意義,不僅僅在于讓構建 LLMs 的公司能夠相互競技。長上下文模型在現實世界中的應用場景廣泛,以下是一些例子:

  • 法律研究:律師可以將完整的案例經過、先例和法規輸入模型,在幾秒鐘內就能獲得全面的分析,而非耗費數小時甚至數日進行人工審查。
  • 財務分析:將多年的財務報告、市場動態和經濟指標輸入AI,就能立即獲得深入洞察。
  • 醫療診斷:醫生能夠輸入患者的全部醫療記錄,包括醫療檢測結果、治療記錄和高清醫學影像,以實現更精確的診斷和個性化治療方案。
  • 教育領域:學生可以將整本教材和課程資料輸入模型,獲得定制化的知識點解釋和跨學科的知識串聯。

然而,這些使用案例也引起了人們的擔憂。如果不當使用,處理海量個人數據的能力可能會帶來前所未有的監控和隱私侵犯。隨著這些能力的提升,制定強有力的倫理規范和安全保障的需求也日益迫切。

02 我們該如何評估上下文窗口大小不斷增加的 LLMs?

擁有超長上下文窗口的模型是近期的發展趨勢。因此,研究人員正在嘗試開發新的評估方法,以判斷這些模型的性能。這些評估方法旨在對長上下文模型的能力與局限性進行基準測試,并探討擴展上下文窗口所帶來的利弊。

核心觀點是,擁有更長輸入上下文的模型應當能夠完成那些之前難以或無法完成的任務。

評估場景

本文將探討研究人員考慮用于評估長上下文模型的以下三種方法:

  1. 從長篇文檔中提取信息
  2. 對長篇文檔進行深入分析(推理和概括)
  3. 為即時模型訓練提供上下文學習支持

備注:以上列舉并不全面。如需全面了解長上下文模型的基準測試,請訪問 Awesome LLM Long Context Modeling 的 Github 頁面[8]。

2.1 從長篇文檔中提取信息

Greg Kamradt[9] 提出的“大海撈針(Needle in a Haystack)”測試[10],是評價長文本信息檢索效率的一種流行手段。該方法通過將一句與上下文不符的語句(即“針(needle)”),隨機插入不同長度的文本段落(即“海(haystack)”)中,以此考察模型在不同深度下檢索信息的能力。

長上下文語言模型評估體系探析-AI.x社區

例如,將“The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day”這句話,嵌入到 Paul Graham 的文章之中。

該測試旨在衡量 LLMs 在日益增大的上下文內,定位具體信息的能力。

長上下文語言模型評估體系探析-AI.x社區

Greg Kamradt[9] 設計的原始“大海撈針”圖表,用于檢驗 LLMs 在檢索深層次信息方面的能力。通過將這句不協調的句子(“針”)置于不同長度的文本片段(“海”)的各個層級,我們可以評估不同 LLMs 在尋找這些信息時的表現。

“needle in a Haystack”的多種變體

研究人員設計了幾種不同的測試,以探究信息檢索的各個方面:

  • 多“針”測試:在冗長的文檔中散布多個“針”句子(由 Langchain[11] 提出,并在 NeedleBench[12] 中進行實驗)。
  • 多模態搜索:根據描述,在一堆無關的圖片中尋找目標圖像。
  • 音頻搜索:在長達五天的音頻信號中識別出一段簡短的音頻(該測試在 Gemini 1.5 技術報告[13]中提出)。在此測試中,一段包含“the secret keyword is needle”這句話的音頻片段,被隱藏在接近五天(107小時)的音頻信號中。
  • 視頻搜索:在一部長達 10.5 小時的視頻中,找到含有特定文字的單幀畫面(同樣在 Gemini 1.5 技術報告[13]中描述)。在這個測試中,一張顯示“The secret word is needle”文字的畫面,被嵌入到了由七部完整的 AlphaGo 紀錄片拼接而成的視頻中。

長上下文語言模型評估體系探析-AI.x社區

Gemini 1.5 論文中介紹了基于視頻的“Needle in a Haystack”,圖片來自《Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context》(第 110 頁)

“Needle in a Haystack”方法的局限與影響

盡管“Needle in a Haystack”方法應用廣泛,但它也存在一些局限性:

  • 首先,這是一個模擬任務,可能與現實世界的應用場景不符。
  • 其次,它僅評估信息的查找能力,而不涉及邏輯推理或理解能力。
  • 再者,隨著上下文范圍的擴大,對所有可能的“海”大小和“針”位置的組合進行評估,其成本將越來越高。

盡管存在這些缺陷,該測試卻凸顯了長上下文模型的一項重要功能:即能從海量數據中迅速搜尋和提取信息。這一功能的重要性不容小覷,它不僅能提升研究效率,還能達到前所未有的數據分析水平——甚至可能用于監控。

值得注意的是,這種信息檢索方式與檢索增強生成(RAG)不同,它是在一個連貫的大型上下文中進行,而不是從外部資源中提取信息。

2.2 對長篇文檔進行深入分析(推理和概括)

盡管" Needle in a Haystack "測試主要關注信息檢索能力,但還有其他評估方法用于檢測大語言模型在處理長篇內容時的推理、解讀和綜合信息的能力。這些評估方法旨在檢驗模型是否能夠進行更高級的推理,而不僅僅是尋找數據的具體位置。

以下是屬于此類的幾種評估方法:

文學問答任務

書籍是長篇文檔的經典例子。NOVELQA[14] 這樣的基準測試就是用來評估模型處理文學小說的能力,文檔長度可達 200K 個 tokens。這個測試包含了針對 88 本英語小說的問題(這些問題由人類編寫),涵蓋了公版書和受版權保護的作品。其他數據集,比如NoCha[15],也采取了相似的評估方式。

長上下文語言模型評估體系探析-AI.x社區在這里插入圖片描述

插圖說明:這張圖表展示了來自 NovelQA 數據集[14]的兩個示例問題,這些示例取自《NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens》[14]一文。

在含有隱蔽相關信息的長篇文章中進行邏輯推理

FlenQA[16] 通過將相關信息嵌入到較長的非相關信息中,生成了多個不同長度的上下文版本。這種方法有助于我們了解,隨著上下文長度的增加,大語言模型的處理能力如何逐步下降。

長上下文語言模型評估體系探析-AI.x社區

在 FlenQA 的一個任務示例中,相關信息(以深紅色表示)被穿插在大量無關信息之中。此圖表摘自《Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models》[16]一文。

針對特定領域的邏輯推理

  • 醫療領域:LongHealth[17] 基準測試采用了 20 個虛構的病例(每個病例包含 5-7 千字),以此來評估模型在醫學推理方面的能力。
  • 金融領域:DocFinQA[18] 則通過讓模型處理長達 150 頁的金融文檔(包含超過 100K 個 tokens)來對其進行挑戰。

總結摘要任務

對于大語言模型而言,能夠有效地壓縮長篇文檔的內容是一項至關重要的能力,因為它可以讓用戶在不閱讀全部內容的情況下,快速掌握大量文本中的關鍵信息。這一點在研究領域、商業分析和法律實踐中尤為重要,這些領域的專家經常需要將大量資料精煉為簡潔的報告。

但是,如何評價總結摘要的質量是一項復雜的任務。總結摘要不僅要求對全文有深刻的理解,還要求能夠精準地識別并整合關鍵信息。 什么樣的總結摘要算是優質,往往取決于個人主觀判斷和具體上下文。

目前,總結摘要質量的評估多依賴于將模型的輸出與人工編寫的總結摘要進行對比,這種方法并不完美,可能無法涵蓋所有合理的總結摘要方式,也可能會忽略那些用詞不同但含義準確的總結摘要。

為了應對這些挑戰,LongBench[19] 和 ∞Bench[20] 等基準測試應運而生。LongBench 涵蓋了多種文檔類型(如政府報告、會議紀要、新聞報道)的摘要任務,文檔長度可達 15K 字;而 ∞Bench 則進一步拓展了摘要任務的挑戰邊界,包含長度可達 100K 個 tokens 的文檔。盡管這些基準測試頗具價值,但該領域仍在探索更為有效的評估方法,以便更精準地評價高質量總結摘要的細微差別。

若想深入了解這一主題,可以查閱《An Empirical Survey on Long Document Summarization: Datasets, Models, and Metrics》[21]這一文章。

2.3 為即時模型訓練提供上下文學習支持

長上下文模型最酷的應用之一便是在上下文學習(ICL)方面的增強能力。ICL 技術使得模型能夠即時從提示詞中的示例中學會處理新任務。得益于更大的上下文窗口,我們現在能夠納入成百上千的訓練樣本,甚至是那些復雜且篇幅較長的任務,比如文本摘要。

這項技術改變了游戲規則。它讓開發人員可以跳過針對特定領域的模型微調,直接通過 ICL 讓模型迅速適應新任務。

Many-shot ICL

DeepMind 針對多樣本 ICL[22] 的研究表明,當提示詞中包含更多示例時,模型在不同任務上的表現有顯著提升。通過擴充到成百上千的示例,模型能夠克服預訓練中的偏見,并處理更為復雜的問題。

長上下文語言模型評估體系探析-AI.x社區

通過在提示詞中增加更多的示例(即“shots”),相同的 LLM 模型在多種任務上都能展現出更好的性能。例如,將情感分析任務的示例從 32 個增加到 2048 個,模型的表現提升了 18.2 %。此圖摘自《Many-Shot In-Context Learning》[22]。

這一理念不僅僅局限于性能提升。Anthropic 公司在其“Many-shot Jailbreaking”[23]項目中的研究發現,雖然僅憑幾個樣本無法突破模型的安全防線,但是如果有數百個樣本,就能做到這一點——這一發現既展示了這種方法的威力,也揭示了其潛在的風險。

長上下文語言模型評估體系探析-AI.x社區

例如,我們可以看到,僅僅幾個樣本是無法誘導 LLM 生成有害內容的,但是當樣本數量增加到數十個甚至數百個時,就能讓模型忽視其“安全圍欄”。此圖來自于《Many-Shot Jailbreaking》[23]。

翻譯低資源語言

在低資源語言的翻譯方面,長上下文模型展現出了非凡的價值。在 Gemini 1.5 的技術報告[13]中,以 Kalamang 語為例,這種語言的使用者不足200人,網絡資源也非常有限。通過向模型輸入 500 頁的語法資料、一個包含 2000 個詞條的雙語詞匯表以及 400 個對照句子(總共 250 k個 tokens),模型不僅能翻譯 Kalamang 語,還能進行語音轉錄。

這種方法同樣適用于其他低資源語言,并且隨著示例數量的增加,翻譯性能也在不斷提升。對于瀕危語言的保護和使用來說,這無疑是一個充滿希望的新進展。

03 Discussion

對于更長上下文窗口的追求正在語言模型領域掀起一場激烈的競賽,上下文窗口的規模正以驚人的速度擴張。這種擴張迫使我們需要開發新的評估手段,以便更準確地把握這些模型的實力與短板。

盡管已經涌現出了一批針對長上下文模型的評估基準(如 SCROLLS[24]、LongBench[19]、∞BENCH[20]等),但仍有許多疑問尚待解答:

  • 規模的權衡:當上下文長度不斷增加時,模型在安全性、偏見和指令執行方面的表現會如何波動?
  • 多語種表現:大多數評估基準都著眼于英語(CLongEval[25] 等評估基準除外,其中也涵蓋了中文的評估)。那么,對于非英語系的語言,隨著上下文的增加,其表現又會與英語有何不同?
  • 性能衰退:模型在處理更豐富上下文的同時,是否會犧牲掉某些特定能力,比如編程技能或是創造力?
  • 現實影響:當模型能夠處理整本書籍、完整個人經歷,甚至是稀缺語言的詳盡數據時,我們將面臨哪些倫理和現實層面的挑戰?

隨著大語言模型(LLMs)的上下文窗口不斷擴大,我們不僅要了解它們能做到什么,還要探究它們的基本特性可能會如何變化。

目前來看,這場追逐更大上下文窗口模型的競賽還將持續升溫。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

Yennie Jun

Machine learning engineer and AI researcher exploring my curiosity of the world through creative projects

END

本期互動內容 ??

? #技術探討# 你認為評估長上下文模型最重要的指標是什么?為什么?

??文中鏈接??

[1]??https://arxiv.org/abs/1810.04805??

[2]??https://arxiv.org/abs/1910.10683??

[3]??https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf??

[4]??https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-google-ai-studio/??

[5]??https://www.reddit.com/r/OpenAI/comments/1buz5ju/geminis_context_window_is_much_larger_than_anyone/??

[6]??https://www.notion.so/Long-Context-Eval-Survey-fe3c69173f2e4eb0b5cd4c973f712626?pvs=21??

[7]??https://www.reddit.com/r/singularity/comments/1ausp2k/geminis_nearly_perfect_10_million_context_length/??

[8]??https://github.com/Xnhyacinth/Awesome-LLM-Long-Context-Modeling?tab=readme-ov-file#11-Benchmark-and-Evaluation??

[9]??https://twitter.com/GregKamradt??

[10]??https://github.com/gkamradt/LLMTest_NeedleInAHaystack??

[11]??https://blog.langchain.dev/multi-needle-in-a-haystack/??

[12]??https://arxiv.org/abs/2407.11963??

[13]??https://arxiv.org/abs/2403.05530??

[14]??https://arxiv.org/pdf/2403.12766??

[15]??https://arxiv.org/abs/2406.16264??

[16]??https://arxiv.org/pdf/2402.14848v1??

[17]??https://arxiv.org/pdf/2401.14490??

[18]??https://arxiv.org/pdf/2401.06915??

[19]??https://arxiv.org/pdf/2308.14508??

[20]??https://arxiv.org/pdf/2402.13718??

[21]??https://dl.acm.org/doi/10.1145/3545176??

[22]??https://arxiv.org/pdf/2404.11018??

[23]??https://www-cdn.anthropic.com/af5633c94ed2beb282f6a53c595eb437e8e7b630/Many_Shot_Jailbreaking__2024_04_02_0936.pdf??

[24]??https://arxiv.org/abs/2201.03533??

[25]??https://arxiv.org/abs/2403.03514??

原文鏈接:

??https://www.artfish.ai/p/long-context-llms??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
欧美videofree性高清杂交| 亚洲欧美综合另类在线卡通| 26uuu国产精品视频| 李宗瑞91在线正在播放| 日日夜夜亚洲| 天天综合色天天| 亚洲国产日韩综合一区| 亚洲精品一区二区三区不卡| 久久久xxx| 欧美成人免费一级人片100| 中文字幕在线播放一区| 欧美高清影院| 欧美日韩美女在线观看| 成年人免费观看的视频| 欧美男男激情freegay| 国产曰批免费观看久久久| 欧美亚洲国产视频| 精品99在线观看| 欧美一区二区性| 精品处破学生在线二十三| 久久久久久蜜桃一区二区| 草草视频在线| 国产精品家庭影院| 日韩精品久久久毛片一区二区| 国产999久久久| 免费高清在线一区| 欧美做爰性生交视频| 欧美精品色哟哟| 国产精品99一区二区三| 在线电影中文日韩| 成年人网站免费在线观看| 中文字幕日韩在线| 制服视频三区第一页精品| 国产免费视频传媒| 在线中文字幕播放| 欧美日韩免费在线观看| 成人在线播放网址| 中文字幕资源网在线观看| 国产精品久久久久一区二区三区| 欧美精品与人动性物交免费看| 内射后入在线观看一区| 国产乱子伦一区二区三区国色天香| 国产精品久久久久久久美男| 日韩中文字幕在线观看视频| 亚洲第一在线| 国内偷自视频区视频综合 | 北条麻妃在线一区二区免费播放| 欧美丝袜丝交足nylons| 亚洲高清在线免费观看| 神马电影网我不卡| 91成人看片片| 激情视频综合网| 欧洲一级精品| 在线视频欧美精品| 五月婷婷激情久久| 欧美日韩视频免费观看| 欧美私人免费视频| www.cao超碰| 只有精品亚洲| 欧美一级黄色录像| xxxwww国产| 中文字幕精品影院| 国产一区二区三区视频| 美国美女黄色片| 91久久久精品国产| 毛片精品免费在线观看| 中文在线观看免费网站| 亚洲少妇一区| 国产精品揄拍一区二区| 国产又粗又猛又色又| 国产精品综合一区二区| 国产精品一区二区三区免费 | 亚洲老头同性xxxxx| 美女被到爽高潮视频| 成人羞羞动漫| 久久99久久99精品免观看粉嫩 | 一本色道久久综合亚洲精品按摩| 国产福利一区视频| 亚洲精品无播放器在线播放| 欧美一区二区三区系列电影| 欧美图片自拍偷拍| 亚洲人亚洲人色久| 日韩三级影视基地| 久久精品国产亚洲av无码娇色| 在线一区免费观看| 国产一区二区在线免费视频| 亚洲av无码乱码国产精品| 91女神在线视频| 一区二区三区四区欧美日韩| 免费看电影在线| 欧美在线一区二区| 国产精品99精品无码视亚| 亚洲精品动态| 大胆欧美人体视频| 国产精品人人人人| 加勒比av一区二区| 久久国产一区二区| 国产一二三区在线观看| 狠狠色香婷婷久久亚洲精品| 色婷婷一区二区三区av免费看| 国产66精品| 中文字幕一区二区三区电影| 日本少妇xxxx动漫| 极品美女销魂一区二区三区| 久久久久久亚洲精品不卡4k岛国 | 亚洲97av| 美女福利视频一区| 欧美在线视频精品| 91性感美女视频| 路边理发店露脸熟妇泻火| 欧美××××黑人××性爽| 精品国产精品网麻豆系列| 欧美性受xxxx黑人| 国产精品入口66mio| 92看片淫黄大片看国产片| 黄色小视频在线免费观看| 夜夜精品视频一区二区| gogogo高清免费观看在线视频| 人人网欧美视频| 欧美第一淫aaasss性| 亚洲天堂avav| 国产丝袜美腿一区二区三区| 精品久久久久久久久久中文字幕| 警花av一区二区三区| 中文字幕久久亚洲| 精品人妻一区二区三区潮喷在线| 成人免费的视频| 国产欧美综合一区| 高清在线一区| 最近2019年日本中文免费字幕| 久久久久女人精品毛片九一| 成人激情黄色小说| 欧美一级中文字幕| 日韩欧美中文字幕在线视频 | 亚洲精品一区在线观看| 色在线观看视频| 激情六月婷婷久久| 亚洲综合首页| 四虎影视国产精品| 久久久精品久久| 国产精品国产三级国产普通话对白| 国产日韩精品一区二区三区| aaa毛片在线观看| 国产videos久久| 国产91热爆ts人妖在线| 精品999视频| 日本韩国一区二区三区视频| 久久成人激情视频| 日本成人中文字幕在线视频| 亚洲精品中文字幕乱码三区不卡| 国产成人精品一区二三区在线观看| 亚洲日韩中文字幕在线播放| 国产黄色免费视频| 中文字幕欧美激情| 色噜噜狠狠一区二区| 国产精品精品国产一区二区| 91亚洲人电影| 欧洲成人综合网| 亚洲成人久久久久| 亚洲永久精品在线观看| 久久久99久久| 久久久久久久高清| 国内精品美女在线观看| 国产专区一区二区三区| 欧美一区 二区 三区| 在线观看中文字幕亚洲| 国产色视频在线| 亚洲综合色视频| 国产精品三级在线观看无码| 天使萌一区二区三区免费观看| 亚洲午夜精品福利| 一区二区三区亚洲变态调教大结局 | 日本欧美一区二区三区乱码 | 亚洲国产专区| 美脚丝袜一区二区三区在线观看| 三上悠亚激情av一区二区三区| 日韩中文字幕视频在线观看| a级片免费视频| 精品久久久久久久久久久久久久 | 中文字幕免费精品| 激情伦成人综合小说| 成人h在线观看| 欧美理论片在线观看| 日本ー区在线视频| 91麻豆精品久久久久蜜臀| 国产一级二级三级| 国产视频亚洲色图| 精品人妻一区二区乱码| 久久久久久穴| 欧美交换配乱吟粗大25p| 亚洲专区视频| 亚洲一区二区久久久久久| 天堂中文最新版在线中文| 日韩一区二区av| 美国一级片在线免费观看视频| 538在线一区二区精品国产| 啦啦啦免费高清视频在线观看| 中文字幕一区二区三区色视频| 玖玖爱在线精品视频| 国精产品一区一区三区mba视频| 三上悠亚久久精品| 亚洲综合激情在线| 日韩电影天堂视频一区二区| 国产精品乱战久久久| 国产在线不卡精品| 神马电影网我不卡| 66m—66摸成人免费视频| 国产二区三区在线| 国产一区二区三区直播精品电影| 女人18毛片一区二区三区| 欧美日韩黄色一区二区| 免费黄色网址在线| 亚洲午夜久久久久中文字幕久| 91香蕉视频网| 久久久久久99久久久精品网站| 男生和女生一起差差差视频| 日韩影院免费视频| 青青草视频在线免费播放| 一级毛片免费高清中文字幕久久网| 日韩精品资源| 啪啪亚洲精品| 乱色588欧美| 中文字幕一区二区三区日韩精品| 成人在线小视频| 国产黄色精品| 国产精品久久电影观看| 久草在线资源福利站| 久久青草精品视频免费观看| 69成人在线| 久久av中文字幕| 看黄网站在线观看| 久久亚洲精品成人| 视频一区二区三区不卡| 亚洲日韩第一页| 国产视频福利在线| 国产一区二区三区在线观看网站| 日韩电影在线观看完整版| 欧美精品一区视频| 污视频在线免费| 亚洲精品ady| 偷拍精品一区二区三区| 亚洲精品福利在线| 天天av天天翘| 日韩精品在线观看一区二区| 亚州视频一区二区三区| 日韩精品福利在线| 国外av在线| 在线播放日韩欧美| 黄色大片在线播放| 久久最新资源网| 女囚岛在线观看| 国外视频精品毛片| 波多野结衣久久精品| 日韩av免费在线观看| 日韩精品三区| 国产精品入口夜色视频大尺度| 日韩视频网站在线观看| 国产欧美日韩中文字幕| 日本精品久久| 3d动漫精品啪啪一区二区三区免费 | 亚洲天堂激情| 久久久久久久久久久视频| 久久综合导航| 免费成人黄色大片| 成人午夜视频免费看| 中文字幕一区二区久久人妻网站| 久久午夜免费电影| 成人激情五月天| 一区二区视频在线| 久久免费激情视频| 欧美日韩午夜精品| 亚洲精品网站在线| 亚洲女人天堂网| 欧美jizzhd69巨大| 午夜免费久久久久| av成人亚洲| 高清国产一区| 大色综合视频网站在线播放| 一级黄色片播放| 国产视频一区三区| 国产成人在线综合| 91在线精品一区二区| 殴美一级黄色片| 午夜成人在线视频| 在线观看日韩一区二区| 亚洲国产精品专区久久| 国产在线观看免费网站| 欧美精品在线免费观看| 成人动漫一区| 99视频日韩| 国产欧美一区二区精品久久久| 黄色网址在线免费看| 国产精品丝袜xxxxxxx| www.久久久久久久久久久| 波多野结衣在线一区| 天堂网av2018| 色综合久久中文综合久久97| 国产手机视频在线| 国产一区二区免费| 国产桃色电影在线播放| 国产欧美日韩精品在线观看| 欧美jizz19性欧美| 综合久久国产| 日韩精品电影一区亚洲| 国产精品久久久久久亚洲色| 国产精品国产三级国产aⅴ中文 | 亚洲欧美久久久| 日韩av自拍偷拍| 日本一区二区三区四区| 91浏览器在线观看| 欧美一区二区三区影视| 超碰在线影院| 57pao国产成人免费| 一区二区在线免费播放| 一区一区视频| 日韩精品免费专区| 中文幕无线码中文字蜜桃| 午夜欧美视频在线观看| 亚洲不卡免费视频| 久久九九免费视频| 国产精品第一国产精品| 日本不卡一区二区三区视频| 国产精品资源| 亚洲综合自拍网| 亚洲aaa精品| 韩国av在线免费观看| 久久99精品久久久久久噜噜| 北岛玲精品视频在线观看| 午夜精品美女久久久久av福利| 久久福利毛片| 国产精品扒开腿做爽爽| 狠狠干狠狠久久| 日本一本草久在线中文| 91高清视频免费| 欧美福利在线播放网址导航| 99在线免费视频观看| 高清国产一区二区三区| 久操视频免费在线观看| 精品国产1区2区3区| 日本一本在线免费福利| 99久久综合狠狠综合久久止| 国产一区二区三区四区三区四 | 国产香蕉精品| 97视频久久久| 99精品黄色片免费大全| 日本道在线观看| 亚洲欧美999| 国产成人免费9x9x人网站视频| 免费在线成人av电影| 丝袜国产日韩另类美女| 久久久视频6r| 欧美久久久久久久久| 超碰免费公开在线| 成人在线免费网站| 99伊人成综合| 日韩在线免费观看av| 欧美日韩在线播| 污视频在线看网站| 国产一区二区三区四区五区加勒比| 亚洲人体大胆视频| 三级网站在线免费观看| 欧美性色欧美a在线播放| 欧美成年黄网站色视频| 都市激情久久久久久久久久久| 亚洲乱亚洲高清| 亚洲欧美va天堂人熟伦| 制服.丝袜.亚洲.中文.综合| av在线不卡免费| 欧美精品一区二区三区久久| 捆绑变态av一区二区三区 | 日韩欧美国产视频| av女优在线| 国产精品一区在线观看| 久久天堂成人| 九九热精彩视频| 日韩电影免费观看在线观看| 成人午夜一级| 91视频 - 88av| 国产亚洲精品7777| 国产日韩精品suv| 青青久久av北条麻妃海外网| 日本一区二区免费高清| 动漫美女无遮挡免费| 欧美日韩中文国产| 国产天堂在线播放视频| 亚洲精品在线视频观看| 不卡av在线网| 国产精品视频一二区| 性欧美激情精品| 国产精品毛片一区二区在线看| 第四色在线视频| 在线不卡中文字幕播放| 在线人成日本视频| 日本福利视频在线观看| 久久久久久久综合色一本| 国产情侣自拍小视频| 国产精品扒开腿做爽爽爽视频 | 国产精品久久久久久久久久尿| 欧美韩国一区| 男女男精品视频网站|