精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

o3完爆人類醫生,OpenAI基準直擊AGI!

人工智能 新聞
OpenAI發布新基準HealthBench ,聯手60個國家262名執業醫生,樹立新的「AGI標志性用例」。OpenAI o3碾壓Grok 3和Gemini 2.5 Pro,成功登頂。而最強AI幾乎達到了人類醫生最佳水平!

最強AI,已擊敗了人類醫生。

圖片

就在剛剛,全球60個國家,262名執業醫生共同上陣,聯手OpenAI打造出「最具AGI標志性」的AI健康系統評估標準——HealthBench。

這個基準包含了5,000個基于現實場景的健康對話,每個對話都有醫生定制的評分標準,來評估模型的響應。

圖片

論文地址:https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

在參戰的所有頂尖模型中,o3拿下了最高分,Grok 3位列第二,Gemini 2.5 Pro位列第三。

值得一提的是,在AI輔助下,醫生的診斷準確率提升了近4倍。甚至,o3、GPT-4.1回答質量超越了醫生的水平。

圖片

人類免疫學家Derya Unutmaz高度評價道,「這個關鍵的評估基準,將為AI醫生鋪平道路。我們現在正處于一場改變醫學未來,拯救數百萬人生命的革命開端」。

圖片

AGI關鍵要素,醫療AI「標尺」

OpenAI的Health AI團隊負責人Karan Singhal,在X上介紹了HealthBench的特點,并給予了極大的期待:

希望這項工作的發布,能為AI朝著改善人類健康的方向發展提供有力引導。

圖片

改善人類健康,將是通用人工智能(AGI)最具決定性的影響之一。

但要實現這一目標,必須確保模型既有用又安全。專業評估對理解模型在醫療場景中的表現至關重要。

盡管學術界和產業界已付出巨大努力,但現有評估體系仍存在三大局限:

未能還原真實醫療場景、  

缺乏基于專家意見的嚴格驗證、  

難以為前沿模型提供提升空間。

OpenAI團隊秉持AI在醫療領域評估的三大核心信念,由此設計出HealthBench:

  • 有現實意義(Meaningful):評分應反映真實世界影響。突破傳統考試題的局限,精準捕捉患者與臨床工作者使用模型時的復雜現實場景和工作流程。
  • 值得信賴(Trustworthy):評分須真實體現醫師判斷。評估標準必須符合醫療專業人員的核心訴求與行業規范,為AI系統優化提供嚴謹依據。
  • 未飽和(Unsaturated):基準測試應推動進步。現有模型必須展現顯著改進空間,持續激勵開發者提升系統性能。

在過去一年中,OpenAI與來自26個醫學專業、在60個國家(如下所示)擁有執業經驗的262名醫師合作,共同構建了HealthBench評估體系。

HealthBench主要面向兩個群體:

1. AI研究社區:旨在推動形成統一的評估標準,激勵開發出真正有益于人類的模型

2. 醫療領域:提供高質量的證據,幫助更好地理解當前和未來AI在醫療中的應用場景與局限性

與以往那些評估維度較為單一的醫療基準不同,HealthBench支持更具實際意義的開放式評估

新研究有很多有趣的發現,包括醫生評分基線研究等。

o3沖榜 媲美人類醫生

這項健康基準HealthBench提出的主要目的,便是為當前,甚至未來頂尖LLM提供性能可參考依據。

在研究中,OpenAI團隊評估了多個模型,包括o3、Grok 3、Claude 3.7 Sonnet等,重點考察其在性能、成本和可靠性方面的表現。

性能

根據現實世界健康場景的不同子集,即「主題」,以及體現模型行為的不同維度,即「軸」,所有模型進行PK。

整體來看,o3表現最佳,超越了Claude 3.7 Sonnet和Gemini 2.5 Pro(2025年3月)。

圖片

圖片

此外,在最近幾個月里,OpenAI前沿模型在HealthBench上的表現提高了28%。

這一提升,對模型的安全性和性能來說,比GPT-4o(2024年8月)和GPT-3.5 Turbo之間的提升更大。

成本

接下來,研究團隊還在模型大小和測試時計算scaling軸上,研究了模型的成本與性能。

可以看到,4月份OpenAI發布的模型(o3,o4-mini,GPT?4.1),刷新了性能成本SOTA。

研究還觀察到,小模型在最近幾個月里,得到了顯著的改進,

盡管成本僅為GPT-4o(2024年8月版)的1/25,GPT-4.1 nano的表現仍優于后者。

圖片

比較低、中、高推理水平下的o3、o4-mini和o1模型,結果顯示測試時計算能力有所提高。

其中,o3與GPT-4o之間的性能差距(0.28)甚至超過了GPT-4o與GPT-3.5 Turbo之間的差距(0.16)。

圖片

可靠性

在醫療領域,可靠性至關重要——一次錯誤回應可能抵消許多正確回答。

因此,OpenAI在HealthBench上評估了各模型在k個樣本下的最差表現(worst-of-n performance)。

也就是說,在給定示例的n個響應中,最差的得分是多少?

結果發現,o3模型在16個樣本時的最差分數超過GPT-4o的兩倍,展現出更強的穩健性和下限表現。

圖片

HealthBench系列

此外,OpenAI還推出了HealthBench系列的兩個新成員:HealthBench Hard和HealthBench Consensus。

  • HealthBench Hard專為更高難度場景設計,問題更具挑戰性;
  • HealthBench Consensus由多位醫生共同驗證,確保評估標準的專業性和一致性。

o3和GPT-4.1在HealthBench Consensus錯誤率,比GPT-4o顯著降低。

圖片

在HealthBench Hard上,表現最好的模型得分僅為32%,這表明它為下一代模型提供了一個有意義且具挑戰性的目標。

圖片

AI與醫生正面交鋒

那么,這些大模型能夠媲美,甚至超越人類醫生的專業判斷?

為此,OpenAI在研究還展開了一場人機對決測試。

262名專業醫生被分為了兩組:

  • 一組醫生可以在不使用AI工具的情況下查閱網絡資源,撰寫最佳回答。
  • 另一組醫生則可以參考OpenAI的模型生成回答,自由選擇直接修改或完全重寫,提供更高質量的回復。

隨后,研究團隊將這些醫生撰寫的回答與AI模型的回答進行評分對比,評估它們在準確性、專業性和實用性等方面的表現。

關鍵發現如下:

2024年9月模型

在測試o1-preview、4o時,他們發現僅依靠AI生成回答,優于沒有參考任何AI醫生的回答。

更令人振奮的是,當醫生參考AI回答并加以優化后,他們的回答質量顯著超越了AI模型本身。

這表明,人類醫生的專業判斷,在AI輔助下能產生最佳效果

圖片

2025年4月模型

這次實驗中,研究人員讓醫生參考最新o3、GPT-4.1模型的回答,試圖進一步提升回答質量。

然而,結果令人意外:

醫生的優化回答與AI原始回答相比,質量上沒有顯著提升。

而當前,AI模型已足夠強大,其回答質量幾乎達到了人類醫生最佳水平。

GPT-4.1參評 遠超人類平均水平

為檢驗基于模型的評分器能否精準評判評分標準(rubric criteria),OpenAI邀請醫生對HealthBench Consensus中的模型回答予以審閱,以確定這些回答是否符合相應評分標準。

基于這些醫生的反饋,研究團隊構建了所謂的「元評估」(meta-evaluation),即評估模型評分與醫生判斷之間的一致性,重點衡量以下兩點:

1. 模型評分器與醫生之間的一致性:模型在判斷一個評分標準是否被滿足時,是否與醫生達成一致;

2. 醫生之間的一致性:多位醫生對同一模型回應的評分是否一致。

評估結果表明,模型評分器與醫生之間的配對一致性程度,和醫生之間的配對一致性程度相當

這說明HealthBench使用的模型評分方法在很大程度上能夠代替專家評分,具有可信度和專業性

圖片

基線模型

OpenAI將34條共識評分標準的數據按七大主題進行分組,評估模型評分器與醫生評分之間的一致性,并通過三種方式建立對照基線:

(1)典型醫生(Typical physician)

為了估計人類專家之間的評分一致性,需要對比每位醫生的評分與其他醫生的評分,并計算MF1分數。

也就是,用與模型相同的方式對醫生進行評分,僅統計該醫生參與評估的對話示例,且不使用該醫生自己的評分作為參考。

注釋:在分類任務中,宏平均F1分數(Macro F1,簡稱MF1)是對每個類別的F1分數進行不加權平均的結果。 

MF1適用于類別不平衡的元評估(meta-evaluation)任務。

表5按主題報告了加權平均的醫生MF1分數,權重基于每位醫生參與的元示例數量。

圖片

(2)個體醫生(Individual physician)

OpenAI還在每個主題下報告了每位醫生的MF1分數

圖12展示了這些醫生評分分數的分布情況。

圖片

(3)通過這些個體分數,模型評分器在每個主題下的MF1分數被表示為醫生分布中的百分位數,以更直觀地理解模型評分表現在「人類專家水平」中所處的位置。

這些基線設定讓我們能夠客觀評估模型評分系統的可靠性,驗證其是否達到了與醫生相當的專業判斷水平。

結果:GPT-4.1遠超普通醫生

如表5所示,在所有主題上,GPT-4.1作為評分模型的表現均明顯優于隨機基線

更具體地說:

  • 7個主題中的5個中,GPT-4.1的評分表現超過了醫生平均水平
  • 6個主題中,GPT-4.1的表現處于醫生評分分布的上半區間
  • 所有主題中,GPT-4.1的評分能力都高于醫生群體的下三分之一(33百分位)

這些結果說明,GPT-4.1作為基于模型的評分器,其表現已能與醫生專家的評估相媲美

從圖12可以看到,不同醫生之間的評分表現差異顯著,說明醫生間本身也存在一定主觀性和評分風格的差異。

總的來說,只要滿足以下條件,基于模型的評分系統可以與專家評分一樣可靠

基礎數據真實、多樣且注釋充分;

元評估設計合理;

評分提示(prompt)和評分模型經過精心挑選。

由于GPT-4.1在無需復雜推理模型帶來的高成本和延遲的情況下,就已達到了醫生級別的一致性表現,因此它被設置為HealthBench的默認評分模型

模擬真實場景,多維度評估

結合模型合成生成與人工對抗測試方式,OpenAI創建了HealthBench,力求貼近真實場景,模擬真實世界中人們使用大模型的情況。

對話具有以下特點:

  • 多輪交互,更符合自然對話流程
  • 多語言支持,覆蓋不同語言背景
  • 角色多樣,既包括普通用戶,也包括醫生
  • 涵蓋多個醫學專業領域與場景
  • 精心挑選,具有一定難度,避免模型輕松「答對」

這個基準的目標是推動更真實、更全面的AI健康對話能力評估,讓模型在實用性與安全性之間達到更好的平衡。

HealthBench使用「評分標準式評估」(rubric evaluation)方法:每個模型回答都會根據該對話特定的、由醫生撰寫的評分標準進行打分。

這些評分標準詳細說明了「完美回應」應包含哪些信息,或應避免哪些內容,比如:應提及某個醫學事實,或避免使用不必要的術語。

每一條評分標準都有對應的分值權重,根據醫生判斷該標準在整體回答中的重要性而設定。

整個HealthBench數據集中包含48,562條獨立評分標準。

HealthBench中的對話被劃分為七大主題,例如急診應對不確定性全球健康等。

每個主題下都包含多個相關示例,每個示例都配有對應的評分標準(rubric criteria)

以下是一些數據集的示例。

圖片

圖片

圖片

每一條評分標準都對應一個評估維度(axis),用于界定該標準評估的是模型行為的哪個方面,例如:

  • 準確性(accuracy)
  • 溝通質量(communication quality)
  • 信息查找與澄清能力(context seeking)

這種結構化的設計,讓HealthBench能夠細致、多角度地評估AI模型在不同醫療場景中的表現,反映在實際應用中的可靠性與實用性。

模型的回答由GPT-4.1擔任評分者,根據每項評分標準判斷是否達成,并根據滿足標準的總得分與滿分比值,給出整體評分。

圖片

HealthBench涵蓋了廣泛的醫學專科領域,包括:

麻醉學、皮膚病學、放射診斷學、急診醫學、家庭醫學、普通外科、內科、介入與放射診斷學、醫學遺傳與基因組學、神經外科、神經內科、核醫學、婦產科學、眼科學、骨科、耳鼻喉科、病理學、兒科學、物理醫學與康復、整形外科、精神病學、公共衛生與預防醫學、放射腫瘤學、胸外科、泌尿外科、血管外科。

這些專科的覆蓋確保了HealthBench在臨床廣度和專業深度上的嚴謹性。

整個HealthBench構建過程涵蓋了重點領域篩選、生成相關且具有挑戰性的案例樣本、案例標注以及各個環節的驗證工作。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-04-14 09:17:00

2025-04-21 08:22:25

2024-12-23 07:40:00

AI模型數學

2025-04-17 14:09:52

OpenAI模型編程

2025-06-10 09:22:31

2024-12-24 16:15:04

2025-02-03 12:29:29

2025-04-23 11:19:31

2025-06-11 08:56:54

2025-04-23 08:30:05

2025-05-26 03:11:00

2025-05-28 00:00:00

2025-02-07 09:05:36

2025-04-22 09:18:57

2024-12-26 12:59:06

2025-07-21 09:11:00

2025-04-17 06:10:57

2025-04-18 11:18:51

2025-04-21 16:25:58

OpenAI測試模型

2025-01-20 12:09:18

點贊
收藏

51CTO技術棧公眾號

亚洲美女视频在线观看| 亚洲天堂一区二区三区四区| 欧美性猛交xxxxx免费看| 欧美另类视频在线| 国产又大又黑又粗| 亚洲美女视频在线免费观看| 亚洲视频电影图片偷拍一区| 夜夜夜夜夜夜操| av影院在线| 国产嫩草影院久久久久| 成人xxxxx色| 狠狠人妻久久久久久综合| 日韩欧美中字| 亚洲国产欧美一区二区三区久久| 男人搞女人网站| brazzers在线观看| 国产精品久久精品日日| 国产在线观看一区| 国产精品高潮呻吟AV无码| 国产日韩1区| 久久国产精品网站| 欧洲av一区二区三区| 91嫩草精品| 日本道在线观看一区二区| 精品少妇人欧美激情在线观看| 国产1区2区3区在线| 成人免费黄色大片| 91久久精品国产91久久| 五月天激情四射| 99视频精品| 九九热这里只有精品免费看| 超碰人人干人人| 欧美激情影院| 精品久久久久一区二区国产| 一二三av在线| 欧美黄页免费| 欧美三级视频在线观看| 成人午夜视频免费在线观看| 2019中文字幕在线电影免费| 亚洲私人影院在线观看| 日产国产精品精品a∨| 五月婷婷丁香六月| 国产成人精品亚洲日本在线桃色 | 老司机精品影院| 国产亚洲制服色| 欧美日韩精品一区| 日本一区高清| 久久这里都是精品| 久久精品国产一区二区三区日韩| 性生交生活影碟片| 风间由美一区二区三区在线观看| 91色p视频在线| 国产人妖一区二区三区| 激情都市一区二区| 91久久久久久| 国产99久一区二区三区a片| 国产一区二区精品久久99| 成人av色在线观看| av男人天堂av| 成人午夜精品一区二区三区| 国产精品免费看一区二区三区| 丰满人妻一区二区| a在线播放不卡| 久久国产日韩欧美| 国产午夜在线观看| 国产精品欧美一区喷水| 中国成人在线视频| 视频在线这里都是精品| 午夜久久久久久| 欧美日韩在线不卡视频| 国产经典一区| 欧美一区二区三区思思人| 一个人看的视频www| 一区中文字幕| 亚洲精品一区二区三区婷婷月| 素人fc2av清纯18岁| 精品国产一区二区三区av片| 日韩中文字幕免费| 欧美精品一区二区成人| 99视频精品| 国产精品中文在线| www.色视频| 成人精品亚洲人成在线| 玛丽玛丽电影原版免费观看1977 | 一级aaaa毛片| 国产精品一区二区果冻传媒| 国产激情美女久久久久久吹潮| 三级视频在线播放| 中文字幕人成不卡一区| 久久天天东北熟女毛茸茸| 国产福利电影在线播放| 欧美午夜精品一区二区蜜桃| 久久久久久久久久久影视| 福利片一区二区| 国产亚洲日本欧美韩国| 免费在线观看亚洲| 日本不卡高清视频| 痴汉一区二区三区| av黄色在线观看| 亚洲午夜一区二区三区| 波多结衣在线观看| 精品国产一区二区三区成人影院| 亚洲网址你懂得| 亚洲精品在线观看av| 奇米影视一区二区三区| 鬼打鬼之黄金道士1992林正英| 国产午夜在线视频| 黄网站色欧美视频| 日本成人在线免费观看| 欧美日韩中文一区二区| 久久久久久亚洲精品中文字幕| 中国女人真人一级毛片| 成人性生交大片免费看视频在线 | 性xxxfreexxxx性欧美| 一本色道久久综合狠狠躁的推荐| 国产一级二级av| 久久美女视频| 国产成人亚洲综合青青| 人妻一区二区三区四区| 亚洲欧美视频一区| 亚洲精品久久久中文字幕| 成人h动漫免费观看网站| 精品国产自在精品国产浪潮| 日韩免费av网站| av午夜一区麻豆| 伊人再见免费在线观看高清版| 91伊人久久| 亚洲欧洲日产国产网站| 日韩手机在线观看| 国产91色综合久久免费分享| 中文有码久久| 黄色日韩网站| 中文字幕久久精品| 久久久久精彩视频| 久久久久久久综合日本| 亚洲午夜精品久久久久久人妖| 日韩精品中文字幕吗一区二区| 中文字幕最新精品| 欧美性受xxx黑人xyx性爽| 91首页免费视频| 亚洲美免无码中文字幕在线 | 久久一区二区精品| 国产在线88av| 日韩国产精品视频| 日韩精品一卡二卡| 99re成人精品视频| 黄色片久久久久| 美女毛片一区二区三区四区最新中文字幕亚洲 | 日韩欧美第一页| 欧美精品欧美极品欧美激情| 亚洲美女色禁图| 久久综合一区二区三区| 亚洲天堂电影| 亚洲色图校园春色| 中文在线免费看视频| 国产精品系列在线| 午夜一区二区视频| 综合一区av| 国产精品jizz视频| 天堂中文在线播放| 亚洲天堂av在线免费| 国产三级理论片| 中文字幕制服丝袜一区二区三区| 一级黄色录像在线观看| 影音先锋日韩精品| 国产精品v欧美精品v日韩精品| 波多野结依一区| 亚洲片在线资源| 91在线视频国产| 一区二区三区四区高清精品免费观看| 日本美女视频网站| 免费看的黄色欧美网站| 亚洲精品成人久久久998| 91麻豆精品| 欧美精品久久久久久久免费观看| 香蕉久久一区二区三区| 91福利社在线观看| 欧美精品久久久久久久久46p| 国产激情精品久久久第一区二区| 久久久亚洲精品无码| blacked蜜桃精品一区| 国产中文欧美精品| hd国产人妖ts另类视频| 欲色天天网综合久久| 国产免费一区二区三区最新不卡| 亚洲大片精品永久免费| 一级特黄曰皮片视频| 国产精品综合网| 97视频在线免费播放| 香蕉精品视频在线观看| 国产在线资源一区| 日韩午夜视频在线| 91高潮精品免费porn| 日本不卡视频| 亚洲乱码一区av黑人高潮| 国产熟女一区二区丰满| 欧美午夜精品在线| 精品欧美一区二区久久久久| 91蝌蚪porny成人天涯| 男生操女生视频在线观看| 亚洲激情婷婷| 最新中文字幕久久| 啄木系列成人av电影| caoporen国产精品| 国产亚洲精品精品国产亚洲综合| 欧美精品久久久久久久免费观看 | 日韩码欧中文字| 中文字幕在线观看网址| 国产美女一区二区三区| 男女视频一区二区三区| 亚洲精品123区| 男女啪啪的视频| 欧美日韩在线播放视频| 精品午夜一区二区三区| 日韩精品三级| 91日韩在线视频| 久久三级毛片| 国产精品久久久久久久久久ktv| 国产高清自产拍av在线| 欧美精品免费在线观看| 1024国产在线| 永久免费看mv网站入口亚洲| 亚洲av毛片成人精品| 精品久久久久99| 国产后入清纯学生妹| 91精品国模一区二区三区| 在线播放成人av| 欧美在线综合视频| 日本中文字幕在线观看视频| 精品毛片三在线观看| 日本特黄一级片| 亚洲一区二区av在线| 美女的奶胸大爽爽大片| 亚洲天堂a在线| 91插插插插插插| 亚洲视频免费在线| 国产又粗又硬又长又爽| 亚洲色图在线看| 蜜臀久久精品久久久用户群体| 一区在线观看免费| 希岛爱理中文字幕| 亚洲欧洲www| 日韩国产第一页| 自拍偷拍国产精品| 欧美日韩精品在线观看视频| 亚洲靠逼com| 真实国产乱子伦对白在线| 亚洲乱码中文字幕综合| 免费中文字幕视频| 亚洲成人av一区二区三区| 一级片免费网址| 黄色一区二区在线| 黄色av一级片| 欧美日韩在线播| 国产情侣一区二区| 欧美v日韩v国产v| 少妇精品高潮欲妇又嫩中文字幕| 亚洲精美色品网站| 噜噜噜在线观看播放视频| 在线观看91久久久久久| 日本韩国在线视频爽| 萌白酱国产一区二区| 色呦呦在线免费观看| 孩xxxx性bbbb欧美| 中文av在线全新| 国产精品免费一区豆花| 91精品一久久香蕉国产线看观看| 成人免费看片网址| 人人精品亚洲| 视频一区视频二区视频三区视频四区国产| 成人激情诱惑| 香蕉视频免费版| 中文一区在线| 老司机午夜av| 国产精品亚洲第一| aaaaaav| 中文字幕av免费专区久久| 国产精品三区在线观看| 亚洲成人免费视频| 亚洲免费视频二区| 精品免费日韩av| 国产精品视频一区二区久久| 久久影院中文字幕| 色在线免费观看| 国产视频福利一区| 精品国产乱子伦一区二区| 亚洲一区二区高清视频| 欧美午夜一区二区福利视频| 成年人在线看片| 国产高清不卡二三区| 亚洲av无码一区二区三区人| 亚洲人成网站色在线观看| 亚洲永久精品在线观看| 欧美美女网站色| 五月色婷婷综合| 久久影院中文字幕| 91九色综合| 美国av一区二区三区| 亚洲午夜精品一区二区国产 | 深夜视频一区二区| 国产精品污www一区二区三区| 国产精品免费不| 久久亚洲a v| 久久99久国产精品黄毛片色诱| 国产a级黄色片| 中文字幕中文字幕在线一区| 亚洲欧美一区二区三区在线观看 | 国产精品日韩av| 欧美人妖在线观看| 国产精品自拍合集| 国内成人免费视频| 精品手机在线视频| 色综合天天性综合| 免费的黄色av| 欧美成人免费大片| 国产一区精品福利| 欧洲av一区| 一本不卡影院| 在线观看亚洲免费视频| 亚洲三级理论片| 在线不卡免费视频| 国产一区二区动漫| 中文字幕21页在线看| 国产一区二区三区色淫影院| 欧美在线视屏| 99精品999| 中文字幕一区二区三| 中文无码av一区二区三区| 精品视频久久久| 青青青免费在线视频| 国产在线精品一区| 99视频精品| 私密视频在线观看| 亚洲成人手机在线| 日本人妻丰满熟妇久久久久久| 欧美成人精品xxx| 精品伊人久久| 国产内射老熟女aaaa| 狠狠色综合日日| 成人在线观看高清| 91精品国产91久久久久久最新毛片| 日本视频在线观看| 成人淫片在线看| 中出一区二区| 国产麻豆剧传媒精品国产| 亚洲精品写真福利| 亚洲第一成年人网站| 欧美激情欧美狂野欧美精品| 欧美影院视频| 精品无码国模私拍视频| 99久久婷婷国产综合精品电影| 国产成人在线免费视频| 亚洲精品一区久久久久久| 成人开心激情| 亚洲精品久久区二区三区蜜桃臀| 麻豆专区一区二区三区四区五区| 久久精品日韩无码| 日韩三级视频在线观看| xxxx成人| 欧洲一区二区日韩在线视频观看免费| 久久综合伊人| 黄色片网站在线播放| 欧美一区二区三区视频| 91制片在线观看| 欧美激情一区二区三区在线视频| 日本在线不卡视频| 老湿机69福利| 日韩av网站大全| 岛国一区二区| 日韩亚洲欧美一区二区| 99国产精品久久久| 中文字幕欧美在线观看| 欧美成人性生活| 一区二区三区视频免费观看| 亚洲天堂2018av| 亚洲午夜一二三区视频| 免费福利在线观看| 91久久久久久久久久久久久| 国自产拍偷拍福利精品免费一 | 亚洲曰韩产成在线| 九一国产在线| 91人人爽人人爽人人精88v| 极品av少妇一区二区| 成都免费高清电影| 日韩午夜激情视频| 成人小电影网站| 免费久久久久久| 久久视频一区二区| 国产女人高潮毛片| 日本精品久久久久久久| 一区二区在线影院| 色屁屁草草影院ccyy.com| 欧美一卡二卡在线观看| 神马久久资源| 日韩美女爱爱视频| 国产精品国产三级国产aⅴ入口| 欧美熟妇乱码在线一区| 国产精品入口日韩视频大尺度| 伊人成人在线视频| 国产午夜精品理论片在线|