精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

真實評估!北理發布全球首個「全場景教育」基準,支持4000+情境

人工智能 新聞
發展教育大模型需要新的數據和評估體系!北京理工大學高揚老師團隊推出EduBench,是首個專為教育場景打造的綜合評估基準,涵蓋9大教育場景、12個多視角評估維度、超4000個教育情境。通過多維度評估指標體系和人工標注一致性計算,確保評估可靠性,助力教育大模型發展,推動教育智能化。

為什么發展教育大模型需要新的數據和Eval體系?

AI賦能教育教學,需要從「經驗導向」邁向「證據導向」,真正將AI數據驅動思想賦能到教育場景中,這是核心動力。

教育場景復雜不僅涉及知識深度(基礎教育到高等教育)、知識廣度(涵蓋不同學科),還涉及認知水平不同、個性化需求多樣、教學決策性要求等。

現有面向AGI的通用benchmark側重于知識性的評估,缺乏對真實教育場景的深入探究。

最近,北京理工大學高揚老師團隊近期推出了全球首個全面涵蓋9大教育場景、12個多視角評估維度、超過4000個教育情境,專為教育場景打造的綜合評估基準EduBench??。

為了確保評估的全面性與準確性,EduBench特別設計了一套多維度評估指標體系???,再加上與人工標注者的一致性計算,確保了評估的可靠性。

通過實驗發現,最先進大模型與人之間的評估認知存在的差異,需要進一步對齊。

圖片

論文地址:https://arxiv.org/pdf/2505.16160

代碼開源:https://github.com/DIRECT-BIT/EduBench

模型開源:https://huggingface.co/DirectionAI/EDU-Qwen2.5-7B

數據開源:https://huggingface.co/datasets/DirectionAI/EduBench

EduBench的設計考慮到了教育的多樣性和復雜性,包含18821條數據,在學生側和教師側覆蓋了問題解答、個性化學習支持、自動評分、教學資料生成等9大教育場景,涵蓋從基礎教育到高等教育的多學科和不同難度等級。

通過評估12個關鍵維度,如場景適應性、事實與推理準確性、教學應用效果等,EduBench能從多個角度精準衡量大語言模型在教育中的表現,幫助研究者重新審視大語言模型在教育中的適用性與潛力。

更令人振奮的是,研究團隊還將研究的全部訓練數據、模型、測評數據、人工評估數據全面開源,旨在促進教育領域與大模型領域的研究者相互參考與交流,共同推動教育智能化的未來發展。

EduBench:為真實教育場景而生

為了提升大模型在多種真實教育場景下的泛用性,研究團隊分別以學生和教師為導向設計了9大教育場景。

圖片

學生側

  1. 問題解答(Problem Solving, Q&A):針對不同的難度的知識性問題,智能助手解答題目
  2. 錯誤糾正(Error Correction, EC):用戶給出一個題目和一個錯誤的回答,智能助手找出錯誤并進行了解釋和修改
  3. 思路提供(Idea Provision, IP):用戶對某個題目或者知識點存在疑問,智能助手提供思路/解釋原理并解答疑問
  4. 個性化學習支持(Personalized Learning Support, PLS):用戶給出學生畫像,智能助手設計學習路徑
  5. 情感支持(Emotional Support, ES):用戶說明問題,智能助手對用戶進行心理輔導

教師側

  1. 問題生成(Question Generation, QG):用戶給出學段、科目、知識點等信息,智能助手按照給定要求生成題目
  2. 自動評分(Automatic Grading, AG):用戶給出一個題目和一個答案,智能助手判斷答案正誤并給出評分和理由
  3. 教學資料生成(Teaching Material Generation, TMG):用戶給出學段、科目、知識點等信息,智能助手按照給定要求生成教學素材
  4. 個性化內容創作(Personalized Content Creation, PCC):用戶給出學生畫像,智能助手規劃教學建議

具體情境包括:(9大場景) * (中文 + 英文) * (簡單 + 中等 + 困難) * (K-12科目 + 高等教育科目) * (簡答 + 單選 + 多選) = 4,019個情境。

EduBench評估

EduBench的評估是分層級體系,包括三個核心維度,每個維度下包含四個子指標

例如,在場景適應性維度上,評估模型是否能夠準確理解并執行教育任務;在事實與推理準確性維度上,重點考察模型輸出的事實正確性和推理的邏輯性;在教學應用性維度上,則評估模型是否符合教育原則,并能對學生的學習產生積極影響。

通過這些精細化的評估維度,EduBench不僅為大語言模型在教育領域的應用提供了全面的測量工具,也為未來的模型優化和改進提供了明確的方向。

場景適配性(Scenario Adaptation)


  • 指令遵循與任務完成(Instruction Following & Task Completion)
  • 角色與語氣一致性(Role & Tone Consistency)
  • 內容相關性與范圍控制(Content Relevance & Scope Control)
  • 場景元素整合能力(Scenario Element Integration)

事實性與推理準確性(Factual & Reasoning Accuracy)


  • 基礎事實準確性(Basic Factual Accuracy)
  • 領域知識準確性(Domain Knowledge Accuracy)
  • 推理過程嚴謹性(Reasoning Process Rigor)
  • 錯誤識別與糾正精度(Error Identification & Correction Precision)

教學應用性(PedagogicalApplication)

  • 清晰簡潔與積極啟發(Clarity, Simplicity & Inspiration)
  • 激勵引導與積極反饋(Motivation, Guidance & Positive Feedback)
  • 個性化適應與學習支持(Personalization, Adaptation & Learning Support)
  • 高階思維與技能發展(Higher-Order Thinking & Skill Development)

大模型在真實場景下仍有不足

研究團隊使用EduBench對多個主流大語言模型進行了廣泛評估,包括DeepSeek R1、DeepSeek V3、Qwen Max等,這些模型包括不同的參數規模和訓練方式,涵蓋從數十億到數千億參數的各種類型。

圖片

每條測試集樣本根據其所屬的任務分類,選取對應的評估維度使用大模型和人類標注分別進行基于給定metric的評估,將模型在每個場景的性能進行量化,下圖展示了評估的結果。

圖片

評估結果令人關注:即使是在模型評估中表現最強的模型,在人類標注的結果中某些場景的平均得分也未能突破9分大關。

這一結果表明,模型在適應少數特殊教育場景時仍存在明顯的不足。

{'姓名':'亞歷克斯·約翰遜','年齡':22,'當前技能水平':'初級','學習目標':'在一年內實現流利的會話并理解基本的書面漢語','研究習慣':'喜歡視覺學習材料,最好在早上學習,每天分配1小時用于語言學習','弱點':'發音和字符識別'}根據學生個人資料,提供\\「學習路徑規劃\\」和\\「個性化建議\\」,以JSON格式返回。Deepseek-V3回復:{  "學習路徑規劃": {    "短期目標 (1-3個月)": [      "專注于掌握拼音和基本發音規則。",      "學習100個最常用的漢字及其含義。",      "通過使用閃卡和視頻等視覺輔助練習簡單的日常對話。"    ],    "中期目標 (4-6個月)": [      "擴展詞匯量至300-500個,重點關注日常會話主題。",      "通過閱讀簡單的文本或漫畫提高漢字識別能力。",      "通過慢速音頻材料進行基本的聽力練習。"    ],    "長期目標 (7-12個月)": [      "在日常場景中實現會話流利。",      "閱讀并理解基礎中文書寫內容,例如短文或消息。",      "與母語者或語言交換伙伴練習口語表達。"    ]  },  "個性化建議": {    "學習材料": [      "使用Pleco或Anki等應用進行漢字識別和詞匯擴展。",      "觀看適合初學者的帶字幕中文YouTube頻道或電視劇。",      "利用閃卡、信息圖表及圖解詞典等視覺學習工具。"    ],    "學習計劃": [      "在早晨安排專注學習時段,例如發音練習。",      "每天花30分鐘進行聽力練習,另30分鐘進行閱讀或寫作。"    ],    "練習策略": [      "錄制自己的語音以監測和改善發音。",      "加入HelloTalk或Tandem等在線語言交換平臺,與母語者交流練習。",      "參加中文語言聚會或在線社區以進行沉浸式練習。"    ],    "弱點提升": [      "通過模仿母語者及使用像Pinyin Trainer這樣的應用程序專注改進發音。",      "每天練習漢字識別,通過書寫漢字和使用間隔重復工具進行鞏固。"    ]  }}1.3 場景元素整合能力(人類評估):得分:5/10原因:推薦視覺工具但未具體說明(如"infographics"類型),晨間學習建議籠統。發音改進策略重復問題描述("mimicking native speakers"),未提出創新方法。4.2 個性化適應與學習支持(人類評估):得分:6/10原因:"join online communities"未說明具體類型,"daily 1 hour"未細化為適合初學者的模塊組合。字符練習建議缺乏進階方案(僅提到"spaced repetition")。

{'姓名':'亞歷克斯·約翰遜','年齡':22,'當前技能水平':'初級','學習目標':'在一年內實現流利的會話并理解基本的書面漢語','研究習慣':'喜歡視覺學習材料,最好在早上學習,每天分配1小時用于語言學習','弱點':'發音和字符識別'}根據學生個人資料,提供\\「學習路徑規劃\\」和\\「個性化建議\\」,以JSON格式返回。
Deepseek-V3回復:
{
  "學習路徑規劃": {
    "短期目標 (1-3個月)": [
      "專注于掌握拼音和基本發音規則。",
      "學習100個最常用的漢字及其含義。",
      "通過使用閃卡和視頻等視覺輔助練習簡單的日常對話。"
    ],
    "中期目標 (4-6個月)": [
      "擴展詞匯量至300-500個,重點關注日常會話主題。",
      "通過閱讀簡單的文本或漫畫提高漢字識別能力。",
      "通過慢速音頻材料進行基本的聽力練習。"
    ],
    "長期目標 (7-12個月)": [
      "在日常場景中實現會話流利。",
      "閱讀并理解基礎中文書寫內容,例如短文或消息。",
      "與母語者或語言交換伙伴練習口語表達。"
    ]
  },
  "個性化建議": {
    "學習材料": [
      "使用Pleco或Anki等應用進行漢字識別和詞匯擴展。",
      "觀看適合初學者的帶字幕中文YouTube頻道或電視劇。",
      "利用閃卡、信息圖表及圖解詞典等視覺學習工具。"
    ],
    "學習計劃": [
      "在早晨安排專注學習時段,例如發音練習。",
      "每天花30分鐘進行聽力練習,另30分鐘進行閱讀或寫作。"
    ],
    "練習策略": [
      "錄制自己的語音以監測和改善發音。",
      "加入HelloTalk或Tandem等在線語言交換平臺,與母語者交流練習。",
      "參加中文語言聚會或在線社區以進行沉浸式練習。"
    ],
    "弱點提升": [
      "通過模仿母語者及使用像Pinyin Trainer這樣的應用程序專注改進發音。",
      "每天練習漢字識別,通過書寫漢字和使用間隔重復工具進行鞏固。"
    ]
  }
}
1.3 
場景元素整合能力(人類評估):
得分:5/10
原因:推薦視覺工具但未具體說明(如"infographics"類型),晨間學習建議籠統。發音改進策略重復問題描述("mimicking native speakers"),未提出創新方法。
4.2 
個性化適應與學習支持(人類評估):
得分:6/10
原因:"join online communities"未說明具體類型,"daily 1 hour"未細化為適合初學者的模塊組合。字符練習建議缺乏進階方案(僅提到"spaced repetition")。

盡管這些模型在大多數常見教育任務中展現了較為出色的表現,但在面對一些復雜或特殊的教育情境時,仍難以做到與人類標注者相匹配。

這種差距可能源于模型對這些場景的理解能力和應對策略的局限性,尤其是在涉及復雜推理、情感識別或個性化反饋的任務中,模型的適應性和準確性仍需進一步提升。

為什么模型給分高于人類評分?

在上表可以清楚地觀察到,模型的評分普遍高于人類標注者。在metricdomain兩個層面,模型的得分通常大于人類評分近1分

特別是在Q&A這一領域,模型的得分通常在9分以上,而人類評分僅為6-7分,兩者之間2分的差距,反映在具體metric評分細則上存在較大差異。

研究團隊認為,這種現象可能由以下兩方面原因造成:

  1. 模型對評分細則的理解存在偏差,但這一問題可以通過后續訓練加以解決,特別是因為當前使用的評估模型尚為通用模型,未經過專門的獎勵訓練;
  2. 現有的大模型不傾向于給出負面反饋,導致模型評估中對用戶問題或答案的評價過于寬容。研究團隊認為,后續的訓練和對齊將有助于緩解這一問題,這也是值得進一步探索的重點方向。

多源知識蒸餾方法使小模型反敗為勝

基于EduBench的評估結果,研究團隊根據大模型和人類標注員在驗證集上的評估結果挑選出了在每個教育場景中表現最為出色的模型,并將這些頂尖模型的知識進行融合,構建成一個多源知識蒸餾源模型組合

這一創新策略不僅使得各個模型的優勢得以有效整合,還為訓練小規模模型提供了全新的可能性。通過這一多源知識蒸餾的方式,團隊成功將多個優秀模型的知識精華提取,并應用于一個7B教育模型的訓練。

圖片

實驗結果令人震驚——即便是如此小規模的模型,在使用約17000個篩選后的訓練樣本的情況下,經過蒸餾訓練后,能夠在多個關鍵評估指標上,達到與671BDeepSeek V3相媲美的性能。

這一突破為資源受限的教育場景提供了全新的解決方案,同時也為大語言模型的高效利用開辟了新的路徑。

大模型與人類決策有多大差距?

在使用模型進行評估之后,研究團隊進一步采用Kendall's W來衡量不同評估模型之間,以及評估模型與人類標注之間的一致性。

圖片

整體來看,DeepSeek-V3作為評估模型,與人類標注者的表現展示出了最高的一致性。

盡管模型與人類標注之間的一致性表現得相對明顯,但并未達到高度的一致,具體的分數給定上仍存在一定差距。

打分為什么選擇Point-wise?Pair-wise有什么缺點

在研究的最初階段,研究團隊采用了pair-wise的評估方式,即讓模型從兩個答案中選擇一個最優答案。

然而,在實驗過程中,團隊發現了一個問題:模型選擇答案的結果受到了兩個答案在prompt中組織順序的顯著影響。

圖片

這一現象在GPT-4o上表現得尤為明顯——當兩個答案被對比時,模型傾向于選擇排在前面的答案,選擇的比例甚至達到了70-80%

這表明,模型的選擇過程已經被答案的順序高度干擾,導致評估結果的偏差。相對而言,QwQ-Plus模型展現出了較高的一致性,其選擇結果并未受到答案順序的明顯影響。

基于這一發現,研究團隊最終決定轉向point-wise評估方式,這種方式不僅更加公平,而且避免了順序干擾,能夠更準確地反映模型在各個維度上的表現。

未來工作

  • 當前所有的問題查詢數據均由模型生成,這可能無法全面反映真實或多樣化的用戶意圖。為了進一步提升評估的準確性,研究團隊計劃加入更多人工編寫的查詢,以彌補模型生成數據的局限性。
  • 此外,大多數評估指標和任務場景是手動設計的,自動化這些過程將顯著提高評估的可擴展性與一致性。研究團隊正在探索如何通過自動化手段優化評估流程,確保更廣泛的適用性和更高的效率。
  • 研究團隊將持續維護該評估基準,形成發展的教育場景數據和更完善的評估體系,助力教育大模型發展和智慧教育推廣。

總結

EduBench的發布,為教育大模型的推廣提供了科學全面的評估框架和高質量數據資源。它不僅為研究人員提供了深刻的洞察,幫助他們理解并優化大語言模型在教育場景中的表現,還為教育工作者提供了強有力的工具,助力提升教學效率和質量。

隨著更多教育場景的不斷加入與評估指標的逐步完善,EduBench有望成為推動教育AI發展的核心平臺。

研究團隊也期待與更多對大語言模型在教育應用方面有興趣的學者與從業者合作,共同開拓這一領域的潛力,推動教育走向更加個性化、智能化的未來。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-02-12 10:12:00

視頻模型AI

2020-07-01 13:10:41

微軟Teams教育

2025-07-22 09:03:00

AI視覺模型

2009-07-16 16:29:46

LTE商用版本華為

2021-09-23 14:22:58

B端字體設計師

2020-10-13 11:17:13

華為UBBF智能聯接

2024-10-12 14:10:00

智能應用

2011-11-25 14:57:01

Radware應用交付

2016-10-31 09:33:08

2015-11-18 17:17:37

100G/博科

2020-09-24 10:55:09

華為智能體全智慧

2011-11-10 10:36:29

全球信息技術主管宣言

2025-03-07 10:12:16

2025-06-16 14:39:56

模型開源框架

2025-06-11 17:46:51

2023-06-30 22:34:34

2025-10-16 08:57:00

2020-07-01 15:53:40

GSMA5G5G網絡新指南
點贊
收藏

51CTO技術棧公眾號

国产免费无遮挡| 色婷婷.com| 天堂中文在线官网| 国产精品久久久亚洲一区| 日韩精品黄色网| 国产尤物av一区二区三区| 性猛交富婆╳xxx乱大交天津| 国产精品av一区二区| 精品久久久久一区二区国产| 国产精品入口芒果| 日韩av资源| 久久 天天综合| 久久久久久久久久久人体| 欧美日韩一区二区区别是什么 | 五月天婷婷色综合| 成人爽a毛片免费啪啪红桃视频| 精品电影在线观看| 亚洲国产精品日韩| 亚洲AV无码一区二区三区性| 米奇777在线欧美播放| 一区二区三区视频观看| 两女双腿交缠激烈磨豆腐| av免费不卡国产观看| 国产日韩成人精品| 91视频在线免费观看| 精品91久久久| 外国成人免费视频| 日韩久久精品成人| 手机在线播放av| 欧美xxx性| 亚洲制服丝袜一区| 手机成人在线| 亚洲人在线观看视频| 麻豆成人免费电影| 97视频在线观看免费高清完整版在线观看 | 在线免费观看成人短视频| 黄色免费高清视频| 韩国三级在线观看久| 国产成人在线色| 国产精品视频在线观看| 久久国产精品二区| 亚洲专区在线播放| 成人影欧美片| 欧美韩日一区二区三区| 高清国产在线一区| 国产一级片一区二区| 激情婷婷亚洲| 久久九九国产精品怡红院 | 亚洲精品一卡二卡三卡四卡| 日日躁夜夜躁白天躁晚上躁91| 毛片一区二区三区| 97超碰蝌蚪网人人做人人爽 | 卡通动漫精品一区二区三区| 欧美福利一区二区| 九九热免费精品视频| 性欧美18xxxhd| 亚洲一区二区五区| 中文字幕一区二区三区四区五区人 | 黄色在线免费| 国产嫩草影院久久久久| 免费成人av网站| 五月天激情婷婷| 成人午夜视频福利| 国产精品一区二区三区久久| 国产又黄又猛又粗又爽| 午夜一区在线| 51精品在线观看| 日韩欧美高清在线观看| 911精品美国片911久久久| 一本色道久久88综合亚洲精品ⅰ | 99精品1区2区| 国产在线一区二区三区欧美| 成人精品在线播放| 成人永久免费视频| 国产一区二区三区色淫影院| 日本精品久久久久| av一区二区三区四区| 成人免费在线看片| www.天天干.com| 成人一区二区视频| 国产伦精品一区二区三区照片 | 日日噜噜夜夜狠狠视频欧美人| 韩国一区二区电影| 国产欧美精品日韩精品| 内射中出日韩无国产剧情| 国产伦精品一区二区三区在线播放| 欧美日韩一区 二区 三区 久久精品 | 亚洲一二三av| 国产精品成人3p一区二区三区 | 色七七影院综合| 久久一级免费视频| 一区二区不卡| 国产最新精品视频| 天堂网中文字幕| 青青草原综合久久大伊人精品优势| 国产精品91一区| 国产美女免费看| 国产精品一区二区黑丝| 国内精品久久久久久久果冻传媒| 青青草视频在线免费观看| 国产亚洲欧美在线| 日韩精品一线二线三线| 欧美18一19xxx性| 亚洲综合一二区| 女人和拘做爰正片视频| 亚洲天堂资源| 欧美精品日韩一区| 亚洲精品第二页| 精品国产美女| 在线亚洲男人天堂| 久久精品女人毛片国产| 肉色丝袜一区二区| 92国产精品久久久久首页| 人妻中文字幕一区| 国产精品五月天| 欧美大黑帍在线播放| 2022成人影院| 欧美一区欧美二区| 蜜臀av一区二区三区有限公司| 国产一区二区电影在线观看| 中文字幕综合在线| 精品少妇久久久| 青青草国产精品97视觉盛宴| 国产精品区二区三区日本| 大胆av不用播放器在线播放| 亚洲欧美综合网| 久久国产亚洲精品无码| 99久热在线精品视频观看| 日韩精品极品在线观看| 欧美色图17p| 国产欧美一级| 7777奇米亚洲综合久久| 看电影就来5566av视频在线播放| 亚洲免费在线视频| 成人亚洲视频在线观看| 国产ts一区| 综合av色偷偷网| 精品成人av一区二区在线播放| 精品国自产拍在线观看| 国内精品写真在线观看| 奇米影视首页 狠狠色丁香婷婷久久综合 | 欧美日韩中字一区| 丰满少妇在线观看资源站| 欧美日韩午夜| 91精品国产综合久久久久久蜜臀| 三级在线观看| 亚洲小说欧美激情另类| 国产精彩免费视频| 加勒比色老久久爱综合网| www日韩欧美| 久久久久精彩视频| 91蜜桃视频在线| 成人黄色片免费| 欧美成人黄色| 国产亚洲精品美女| 日韩xxxxxxxxx| 成人免费毛片高清视频| 黄色www在线观看| 国产激情欧美| 日韩av中文字幕在线免费观看 | 亚洲av成人无码久久精品老人 | 国产1区2区在线观看| 午夜一级在线看亚洲| 精品不卡在线| 免费在线小视频| 亚洲精品成人久久电影| 日韩毛片在线视频| 国产一区二区三区久久久| 亚洲欧洲一区二区在线观看| av成人免费看| 久久精品视频在线| 国产sm主人调教女m视频| 中文字幕日本乱码精品影院| 亚洲人视频在线| 欧美电影免费播放| 成人信息集中地欧美| 成人福利片网站| 日韩三级.com| 国产精品theporn动漫| 成人网在线免费视频| 欧美乱大交xxxxx潮喷l头像| 美女主播精品视频一二三四| 欧美激情18p| 涩爱av在线播放一区二区| 动漫精品一区二区| av2014天堂网| 久久天堂成人| 神马影院一区二区| 91精品国产自产观看在线| 久久中文精品视频| a级片在线视频| 亚洲国产一区在线观看| 鲁大师私人影院在线观看| 亚洲综合好骚| 一区二区欧美日韩| 亚洲一二三区视频| 26uuu另类亚洲欧美日本老年| 久草在线青青草| 欧美日韩高清在线| 久草国产在线视频| 久久综合精品国产一区二区三区| 亚洲不卡视频在线| 欧美黄免费看| 欧美日本亚洲| 成人污污视频| 7777kkkk成人观看| 成人网视频在线观看| 欧美一区二区三区四区高清| 日韩成年人视频| 国产精品久久久久影视| 在线观看欧美一区二区| 美女诱惑一区| 久久久天堂国产精品| 亚洲免费福利一区| 91久久在线视频| 色偷偷色偷偷色偷偷在线视频| 国产一区二区三区免费视频| 精品人妻一区二区三区浪潮在线 | 正在播放欧美一区| 人妻视频一区二区三区| 欧美美女bb生活片| 亚洲黄色一区二区| 国产精品国产三级国产| 欧洲一级黄色片| 国产一区二区三区av电影| 日韩激情免费视频| 在线中文字幕第一区| 玛丽玛丽电影原版免费观看1977| 久久99成人| 国产精品精品一区二区三区午夜版| 午夜成年人在线免费视频| 亚洲网站视频福利| 日韩一区二区三区不卡| 欧美视频一区二区在线观看| 国产精品免费av一区二区| 亚洲婷婷综合久久一本伊一区 | 久久精品亚洲精品国产欧美| 同产精品九九九| 无码人妻精品一区二区三区温州| 国产激情一区二区三区四区 | 无码专区aaaaaa免费视频| 欧美日韩99| 超碰10000| 欧美三级第一页| youjizz.com在线观看| 国产一区二区三区自拍| 免费看日b视频| 激情欧美一区| 奇米精品一区二区三区| 中国女人久久久| 国产精品50p| 天堂av在线一区| 亚洲三级视频网站| 精品一区二区三区在线观看国产| 爱爱爱爱免费视频| 国产风韵犹存在线视精品| xxxx视频在线观看| 成人av在线网站| 久久久久久久久久久国产精品| 久久免费美女视频| 战狼4完整免费观看在线播放版| 国产精品女主播av| a在线视频播放观看免费观看| 亚洲免费av观看| 九九九国产视频| 欧美丝袜一区二区三区| 国产一卡二卡三卡| 欧美精品vⅰdeose4hd| 亚洲国产www| 日韩国产高清污视频在线观看| 久久久久久久影视| 色久欧美在线视频观看| 日本在线视频中文有码| 日本成人精品在线| 欧美天堂一区| 国产99午夜精品一区二区三区 | 久久天天久久| 97久久人人超碰caoprom欧美| 精品亚洲自拍| 夜夜爽www精品| 国产精品观看在线亚洲人成网| 欧美精品日韩在线| 亚洲男人天堂av| 亚洲免费激情视频| 欧美丝袜丝nylons| 亚洲精品免费在线观看视频| 日韩精品极品在线观看| 色网站免费在线观看| 欧美肥臀大乳一区二区免费视频| 免费高潮视频95在线观看网站| 国产精品永久免费| 久久久久97| 在线观看日韩片| 日韩香蕉视频| 国产乱女淫av麻豆国产| 97精品久久久久中文字幕| 很污很黄的网站| 精品国产福利在线| 国产精品无码一区二区桃花视频| 亚洲国产日韩欧美在线99| 麻豆影院在线观看| 欧美孕妇性xx| 91九色鹿精品国产综合久久香蕉| 日韩av不卡在线播放| 婷婷亚洲综合| 丁香婷婷激情网| 成人免费三级在线| 秋霞欧美一区二区三区视频免费| 狠狠躁18三区二区一区| 亚洲图片在线播放| 日韩成人av在线播放| 亚洲国产精品精华素| 国产精品福利在线| 老汉色老汉首页av亚洲| 大片在线观看网站免费收看| 日本网站在线观看一区二区三区| 李丽珍裸体午夜理伦片| 亚洲精品乱码久久久久久久久| 正在播放木下凛凛xv99| 亚洲加勒比久久88色综合| av网站大全在线| 成人精品久久av网站| 精品国产乱码久久久| 欧美日韩二三区| 成人一区二区三区视频在线观看| 在线观看亚洲网站| 欧美日韩亚洲综合一区| 国产三级电影在线观看| 庆余年2免费日韩剧观看大牛| 久久1电影院| 国产欧美日韩小视频| 国产福利91精品| 四虎永久免费在线| 91精品久久久久久久久99蜜臂| 成人欧美一区| 国产精品96久久久久久| 欧洲专线二区三区| 那种视频在线观看| 久久综合九色综合97_久久久| 日韩精品在线免费视频| 亚洲精品国产精品国自产观看浪潮 | 最近2019年好看中文字幕视频| 日韩制服诱惑| 视频一区在线免费观看| 免费在线看成人av| 免费黄色国产视频| 欧美女孩性生活视频| 成人在线免费看片| 亚洲va码欧洲m码| 欧美午夜不卡| 永久免费未满蜜桃| 精品国产乱码久久久久久虫虫漫画| 性xxxx视频播放免费| 日本精品久久久久久久| 欧美最新另类人妖| 亚洲欧洲日本精品| 亚洲视频在线一区二区| 精品人妻伦一区二区三区久久| 欧美伦理91i| 麻豆国产欧美一区二区三区r| 亚洲熟妇国产熟妇肥婆| 久久久久99精品一区| 中文字幕第三页| 久久影视电视剧免费网站清宫辞电视| 欧美经典一区| 久久国产精品视频在线观看| 久久一夜天堂av一区二区三区| 婷婷激情五月综合| 久久久国产一区| 亚洲视频一起| 国产男女在线观看| 国产精品美女久久久久aⅴ国产馆| 在线观看中文字幕网站| 欧美日韩成人精品| 亚洲免费毛片| 午夜免费看视频| 亚洲福利视频一区| 户外极限露出调教在线视频| 国产欧美精品日韩| 国产精品va| 久久亚洲AV无码专区成人国产| 这里是久久伊人| 是的av在线| 一级全黄肉体裸体全过程| 成人少妇影院yyyy| 在线观看国产小视频| 欧美精品videofree1080p| 九九视频精品全部免费播放| 波多野结衣免费观看| 精品久久久久久中文字幕一区奶水| 电影在线一区| 成人免费91在线看| 视频一区视频二区中文| 青草草在线视频| 在线午夜精品自拍| 久久国产精品免费精品3p| 日本人69视频| 色婷婷av一区二区三区gif| av片哪里在线观看| 婷婷五月色综合|