精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強化學習應用在自動駕駛中:一種通過人指導并基于優先經驗的方法

人工智能 無人駕駛
強化學習(RL)需要定義和計算來解決優化和控制問題,這可能會損害其發展前景。將人的指導引入強化學習是提高學習性能的一種很有前途的方法,本文建立了一個基于人指導的強化學習框架。

[[428302]]

 arXiv在2021年9月26日上傳的論文“Prioritized Experience-based Reinforcement Learning with Human Guidance: Methodology and Application to Autonomous Driving“,作者來自新加坡NTU(南洋理工)。

強化學習(RL)需要定義和計算來解決優化和控制問題,這可能會損害其發展前景。將人的指導引入強化學習是提高學習性能的一種很有前途的方法,本文建立了一個基于人指導的強化學習框架。

所提出的是一種在強化學習過程中適應人指導的 優先經驗重放(prioritized experience replay,PER) 機制,提高RL算法的效率和性能。為減輕人的繁重工作量,基于增量在線學習(incremental online learning)方法建立一個行為模型來模仿人。

作者設計了兩個具有挑戰性的自動駕駛任務來評估所提出的算法:一個是T-路口無保護左轉,另一個是高速堵車。

最近強化學習引入深度神經網絡提出了一些流行方法,如rainbow deep Q-learning, proximal policy optimization (PPO) 和 soft actor-critic (SAC), 能夠處理高維環境表征和泛化等。

不過問題是環境和智體的交互比較低效率。為此引入人的指導,有3個途徑:1)人的專家反饋,給行為打分(behavior score);2)人的干預,一般是reward shaping方法;3)人的演示,上下文中監督學習。

如圖是本文方法的RL算法框架:

提出的基于人指導優先經驗回放(PER)機制中,TDQA表示提出的優先計算方案,即Time Difference Q-advantage,數字1-4表示數據的流向順序,動作信號的虛線表示該框架允許間歇性的人在環(human-in-the-loop )的指導。

強化學習基于離散MDP來定義交互過程,這里采用不帶策略的AC(actor- critic)架構。策略函數(即 actor )最大化價值函數Q,Q來自累計的未來reward,基于一個Bellman價值函數(即 critic )。

這個Bellman 價值函數只對最優策略進行評估,而不管執行交互的策略。 因此,RL 將策略評估過程和策略行為解耦,這使智體以一種不帶策略的方式更新狀態。

作者用神經網絡作為函數逼近來制定actor和 critic,然后可以通過損失函數實現目標。

傳統上,緩沖區存儲的經驗服從均勻分布,用均勻隨機抽樣從緩沖區獲取批量經驗,用于 RL 訓練。在有限經驗重放機制中,經驗受制于非均勻分布,實際優先級取決于TD誤差(temporal difference error)。

較大的 TD誤差表明,經驗值得在更高程度上學習。 因此,基于 TD誤差的優先經驗回放(PER)機制可以提高 RL 的訓練效率。

在強化學習的訓練中,采用了兩種人指導的行為方式:干預和演示。

干預 :人的參與者識別 RL 交互場景,并根據先驗知識和推理能力確定是否應該進行指導。 如果人參與者決定進行干預,可以操縱設備從 RL 智體(部分或全部)獲得控制權。 干預通常發生在 RL 智體做災難性操作或陷入局部最優陷阱。 因此,RL 可以學會避免干預出現的不利情況。

演示 :當干預事件發生時,人的參與者會執行行動,產生相應的獎勵信號和下一步狀態。 生成的轉換組(transition tuple)可以看作是一段演示數據,因為是由人策略而不是 RL 行為策略造成的。 RL 算法可以從演示中學習人的專家行為。

在 RL 智體與環境的標準交互中,RL 的行為策略會輸出探索環境的動作。一旦動作被發送到環境,交互的轉換組將被記錄并存儲到經驗重放緩存(buffer)。 特別注意的是,來自人的策略和 RL 策略的操作存儲在同一個緩沖區中。

由于先驗知識和推理能力,人的演示通常比 RL 行為策略的大多數探索更重要。 因此,需要一種更有效的方法來加權緩存的專家演示。 文中采用一種 基于優點的度量( advantage-based measure  ,而不是傳統的優先經驗重放(PER) TD 誤差,以建立優先專家演示重放機制。

除了TD 誤差度量外,該優點度量(因為基于Q計算,故稱為 QA ,即 Q-advantage )也評估應該在多大程度去檢索特定的專家演示轉換組。通過 RL 訓練過程,RL 智體的能力發生變化,一個專家演示轉換組的優先級也隨之變化,這就產生了動態優先機制。整個機制稱為 TDQA ,把兩個度量組合成一個對人的指導測度。

優先機制引入了對價值函數期望估計的偏差,因為它改變了緩存中的經驗分布。 有偏的價值網絡對強化學習漸近性影響不大,但在某些情況下可能會影響成熟策略的穩定性和魯棒性。 作為可選操作,可以通過引入重要性采樣(importance-sampling )權重到價值網絡的損失函數,來退火偏差。

下面討論人的參與者在 RL 訓練環的行為:人的參與者可以干預該過程獲得控制權,并用專家行動替代 RL 智體行動;由于持續重復訓練情節和未成熟的 RL 策略,人的參與者在訓練過程中不斷進行演示顯得很乏味,因此間歇性干預(intermittent intervention)成為更可行的解決方案。 這種情況下,人參與者只會干預那些關鍵場景(災難行為或陷入局部最優)拯救 RL 智體并延長訓練時間。

這里采用reward shaping方法,可防止 RL 陷入那些人為干預的狀態。 然而,它僅在一個人為干預事件的第一時間觸發懲罰。 這背后的原理是,一旦人的參與者獲得控制權,其專家演示會慣性地持續一段時間,這里只有最初的場景被確認為關鍵場景。

下面把上述組件集成在一起,即優先人在環( Prioritized Human-In-the-Loop,即PHIL ) RL。具體來說,通過基于人指導的actor- critic框架,配備優先專家演示重放和基于干預的reward shaping 機制來獲得整體的人在環 (human-in-the-loop)RL 配置。 基于不帶策略 RL 算法,即雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient, TD3 ),來實例化這個 PHIL 算法。 上述組件適用于各種 不帶策略的 actor-critic RL 算法。

最后,整個PHIL-TD3算法總結如下所示:

結合前面的PHIL-RL,需要一個人的策略模型。該模型通過模仿實際人參與者的行為策略,來減輕人在環 RL 過程的工作量。

雖然人參與者進行 PHIL-RL 對提高性能最有幫助,但過度參與會使人疲勞。 作者訓練了一個回歸模型,與 RL 運行同時模仿人類策略,這個策略模型在必要時可以替代人。

分析一下RL 訓練過程的人行為:人類干預間歇性地施加到環中,人演示逐漸補充到訓練集(緩存)中;考慮到這一點,利用在線-和基于增量-的模仿學習算法(即Data Aggregation,DAgger)訓練人策略模型,該算法不受離線大規模演示數據的收集影響。

注意:如果使用這個人策略模型與 PHIL 合作,模型的激活條件將根據特定環境手動定義。

下面討論如何應用在自動駕駛場景:選擇端到端問題的兩個應用,即T-路口無保護左轉和高速堵車。

如圖是自動駕駛任務的環境配置: a 在 CARLA 建立的 T -路口設計的無保護左轉場景; b 左轉場景鳥瞰圖,紅色虛線表示左轉軌跡; c 設計的在 CARLA 建立的高速公路擁堵場景; d 擁堵場景的鳥瞰圖,其中紅色虛線表示跟車軌跡。

T-路口無保護左轉 :小路的自車試圖左轉并匯入主干道,路口沒有交通信號引導車輛;假設自車的橫向路徑由其他技術規劃,而縱向控制分配給 RL 智體;周圍車輛以 [4, 6] m/s 范圍隨機的不同速度進行初始化,并由intelligent driver model (IDM) 控制執行車道保持行為;所有周圍的駕駛員都具有侵略性,這意味著他們不會讓路給自車;所有車輛的控制間隔設為 0.1 秒。

高速擁堵 :自車陷入嚴重擁堵并被其他車輛緊緊包圍; 因此它試圖縮小與領先車的差距,并以目標速度進行跟車;假設縱向控制由 IDM 完成,目標速度為 6m/s,而橫向控制分配給 RL 智體;周圍車輛初始化速度范圍為 [4, 6] m/s,并由 IDM 控制以執行跟車行為;所有車輛的控制間隔設置為 0.1 秒;擁擠的周圍車輛覆蓋了車道標記,而自車道沒有特定的前車,在這種情況下可能導致傳統的橫向規劃方法無效。

下面定義RL的狀態

RL的動作對兩個場景是不同的:

T-路口左轉

高速擁堵

獎勵(reward)對兩個場景也是不同的:

T-路口左轉

高速

價值和策略函數的近似采用Deep CNN,如圖所示:a)策略函數;b)價值函數

輔助函數:主要做車輛控制;當RL操縱方向盤時,縱向控制由IDM實現;當 RL 操縱踏板縫隙時,橫向運動目標是通過比例積分 (PI) 控制器跟蹤規劃的航路點。

實驗比較的基準算法是:

  • IA-TD3:Intervention Aided Reinforcement Learning (IARL)
  • HI-TD3:Human Intervention Reinforcement Learning (HIRL)
  • RD2-TD3:Recurrent Replay Distributed Demonstration-based DQN (R2D3)
  • PER-TD3:vanilla Prioritized experience replay (PER)

RL訓練和推理的實驗工作流如圖(a-b)所示:

訓練 硬件包括駕駛模擬器和高性能工作站。駕駛模擬器用于收集人駕駛數據以訓練人的策略模型,工作站專門處理 RL 訓練。 采用高保真自動駕駛仿真平臺 CARLA來實現駕駛場景并生成RL-環境交互信息。

測試 硬件是機器人車輛。訓練后的RL策略在車輛的計算平臺上實現,通過無線網絡與CARLA服務器進行通信。車載 RL 策略從 CARLA 接收狀態信息并將其控制命令發回,遠程操作完成自動駕駛任務。機器人車輛旨在測試 RL 策略在當前車載計算和通信情況下是否有效。

部分實驗結果比較如下:

作者提出了一種算法 PHIL-TD3,旨在提高人在環 (human-in-the-loop )RL 的算法能力。 另外,引入了人的行為建模機制來減輕人參與者的工作量。 PHIL-TD3 解決兩個具有挑戰性的自動駕駛任務,即無保護T-路口左轉和高速擁堵。

 

責任編輯:張燕妮 來源: 知乎
相關推薦

2023-01-04 10:02:53

強化學習自動駕駛

2023-08-05 13:08:54

2021-10-15 15:29:59

自動駕駛數據人工智能

2023-06-13 10:00:21

自動駕駛技術

2017-07-30 15:16:31

深度強化學習遷移交叉路口

2024-04-10 14:10:33

自動駕駛強化學習

2024-03-22 09:21:07

自動駕駛訓練

2025-01-26 11:00:00

2021-10-18 10:32:32

自動駕駛數據人工智能

2023-11-20 09:53:13

自動駕駛系統

2017-07-21 10:42:27

自動駕駛應用機器學習

2025-03-24 09:50:00

大模型自動駕駛AI

2024-03-08 09:29:42

車道檢測AI

2009-12-25 15:11:08

FTTH應用

2021-10-09 09:44:50

自動駕駛數據人工智能

2022-02-07 22:52:07

自動駕駛安全技術

2023-03-23 18:42:45

AI強化學習

2021-12-16 10:45:22

自動駕駛數據人工智能

2022-06-21 14:53:39

自動駕駛物聯網傳感器
點贊
收藏

51CTO技術棧公眾號

亚洲一区亚洲二区亚洲三区| 欧美激情15p| av中字幕久久| 亚洲精品v日韩精品| 日本亚洲欧洲色| 无码国产精品一区二区高潮| 日本在线视频免费观看| 日韩三区四区| aa级大片欧美| 久久99热精品| 欧美一级视频在线| 成年人视频网站在线| 91蝌蚪精品视频| 黄色国产精品一区二区三区| 男人日女人逼逼| 中文字幕久久网| 九九热播视频在线精品6| 亚洲欧洲av色图| 青青青国产精品一区二区| 免费啪视频在线观看| 毛片在线看网站| 免费成人美女在线观看.| 亚洲久久久久久久久久久| 50度灰在线观看| 91麻豆国产在线| 色天天久久综合婷婷女18| 色综合久久综合网| 精品久久久久久中文字幕动漫| 久久久久久亚洲av无码专区| 中文精品一区二区| 色综合久久综合| 狠狠精品干练久久久无码中文字幕| 一级α片免费看刺激高潮视频| 欧美伦理影院| 亚洲国产欧美一区| 阿v天堂2018| 国产探花精品一区二区| 希岛爱理一区二区三区| 欧美欧美欧美欧美首页| 国产另类第一区| 久久久久久久久毛片| 99综合久久| 一区二区三区精品| 国产精品果冻传媒潘| 亚洲一区在线观| 久久一区二区三区四区五区| 亚洲午夜精品视频| av丝袜天堂网| 欧美激情午夜| 欧美国产综合色视频| 国产精品视频资源| 免费国产羞羞网站美图| 日韩免费高清视频网站| 亚洲成人资源网| 欧美二区三区在线| 最好看的日本字幕mv视频大全| 欧美亚洲国产一区| 3atv在线一区二区三区| 国产精品久久久久久久久电影网| 天天av天天翘| 秋霞影院一区二区| 色综合视频网站| 熟女丰满老熟女熟妇| 深夜视频一区二区| 亚洲天堂网中文字| 国内不卡一区二区三区| 日本中文字幕久久| 99视频精品视频高清免费| 精品对白一区国产伦| 日本成年人网址| 国产淫片在线观看| 26uuu国产一区二区三区| 国产精品久久久久久网站| 欧美黄色一级网站| 国产成人黄色| 欧美成人乱码一区二区三区| 久久精品香蕉视频| 肉体视频在线| 国产精品美女视频| 激情小说网站亚洲综合网| 午夜福利视频一区二区| 激情综合色综合久久综合| 性色av一区二区三区免费| 一区二区三区在线观看免费视频| 日本精品一区二区三区在线观看视频| 欧美精选一区二区| 国产男女无遮挡猛进猛出| 日韩国产在线不卡视频| 亚洲成人精品视频在线观看| 中文字幕22页| 一区二区三区电影大全| 亚洲免费伊人电影| 亚洲永久激情精品| 亚洲三区在线播放| 久久精品人人做人人爽97| 国产传媒一区| 国产精品女人久久久| 久久久成人网| 久久欧美在线电影| 亚洲怡红院在线观看| 偷拍亚洲色图| 欧美精品一区二区久久久| 51调教丨国产调教视频| 日韩在线第七页| 欧美激情精品久久久久久| 欧美一区二区三区四| 狠色狠色综合久久| 九九精品在线视频| 丰满人妻老熟妇伦人精品| 精品一区二区在线观看| 国产精品青青在线观看爽香蕉| jizz中国女人| 精品一区二区免费| 国产亚洲精品美女久久久m| 第三区美女视频在线| 久久久久国产精品免费免费搜索| 好看的日韩精品| 欧美猛烈性xbxbxbxb| 午夜成人在线视频| 久久99中文字幕| 青草视频在线免费直播| 一区二区三区丝袜| 欧美伦理视频在线观看| a看欧美黄色女同性恋| 色婷婷综合成人| 成人免费视频入口| 欧美艳星介绍134位艳星| 久久露脸国产精品| 99在线小视频| 国产精品高潮呻吟久久| 超碰97免费观看| 黄a在线观看| 91福利国产成人精品照片| 国产精品wwwww| 久久97久久97精品免视看秋霞| 久久精品视频导航| 日韩免费av一区| 欧美在线影院| 69精品小视频| 中文字幕人妻精品一区| 99re热视频精品| 日韩精品欧美一区二区三区| 天天在线视频色| 亚洲综合在线五月| 手机av在线网站| 99re6热只有精品免费观看| 日韩中文字幕精品| 免费在线一区二区三区| 精品一区二区三区欧美| 亚洲精品欧美精品| 亚洲在线视频一区二区| 国产日本精品视频| 国产欧美一二三区| 成人小视频在线看| 少妇精品久久久一区二区| 亚洲性夜色噜噜噜7777| 国产精品自拍99| 91色.com| 不卡影院一区二区| 国产最新精品| 国产精品白嫩初高中害羞小美女 | 麻豆av免费看| jizz国产精品| 欧美大片在线免费观看| 午夜精品一二三区| 91麻豆国产精品久久| 精品无码一区二区三区在线| 台湾佬中文娱乐久久久| 69p69国产精品| 黄色a级片在线观看| 99精品福利视频| 国产精品狼人色视频一区| 国产三区四区在线观看| 91传媒视频在线播放| 69xxx免费| 国产欧美在线| 99精品国产高清一区二区| 杨幂一区欧美专区| 免费av在线播放| 欧美一区二区三区啪啪| 国产二级一片内射视频播放| 激情综合网五月| 国产精品一区二区三区毛片淫片 | 国产午夜大地久久| 日韩深夜福利| 国产精品欧美一区二区三区奶水 | 亚洲精品一二三区| 高清中文字幕mv的电影| 久久电影一区| 一区二区三区四区视频在线观看| 榴莲视频成人app| 亚洲人成网在线播放| 青草影院在线观看| av在线播放成人| 好男人www社区| 一区二区不卡| 国产精品福利在线观看| 黄网页在线观看| 亚洲精品av在线播放| 国产日韩久久久| 亚洲美女屁股眼交3| 亚洲精品女人久久久| 欧美日韩影院| 成人美女av在线直播| av大片在线看| 日本高清视频一区二区| 日本老熟俱乐部h0930| 久久免费国产精品 | 久久精品伊人| 日韩a级黄色片| 亚洲免费福利一区| 亚洲r级在线观看| 日本成人三级电影| 欧美激情精品久久久久久| 草碰在线视频| 日韩精品久久久久久久玫瑰园 | 精品久久久国产| youjizz.com国产| 黄色成人在线网站| 日韩视频精品| 欧美人成在线观看ccc36| 国产精品美女呻吟| 亚洲v.com| 亚洲精品一区二区三区不| 五月天激情国产综合婷婷婷| 99国产精品久久久久久久久久| 亚洲性图一区二区| 午夜激情久久| 日韩国产一区久久| 日韩高清影视在线观看| 91一区二区三区| 国产福利在线免费观看| 日韩成人中文电影| a天堂在线视频| 欧美日韩一级视频| 欧美国产日韩在线观看成人| 国产午夜三级一区二区三| 国产精品入口麻豆| 国产成人自拍在线| 九九爱精品视频| 午夜久久tv| 最新不卡av| 日韩精品亚洲专区在线观看| 国产精品欧美日韩| 国产在线|日韩| 国产va免费精品高清在线| 欧美色图另类| 欧美日韩你懂的| 性色av一区二区三区四区| 一本色道久久综合狠狠躁的推荐| 日韩xxx高潮hd| 亚洲一区二区三区在线看| 国产精品一区二区三区在线播放 | 久久综合激情网| 丁香桃色午夜亚洲一区二区三区| 午夜精品久久久久久久无码| 亚洲网址在线| 国产人妻777人伦精品hd| 激情综合中文娱乐网| 欧美亚洲免费高清在线观看| 91tv亚洲精品香蕉国产一区| 国产成人精品av在线| 成人免费毛片嘿嘿连载视频…| 国产成人精品久久亚洲高清不卡| 成人爽a毛片免费啪啪| 欧洲美女免费图片一区| 范冰冰一级做a爰片久久毛片| 欧美又大又粗又长| 国内精品久久久久久野外| 久久久国产精品x99av| av在线免费网站| 亚洲人成在线免费观看| 黄色免费在线播放| 欧美大片拔萝卜| 中文在线字幕免费观| 欧美日韩aaaaa| 99免费在线视频| 精品国产成人系列| 欧美孕妇孕交| 精品三级在线观看| 视频一区二区免费| 亚洲欧美日韩天堂| 免费黄色网址在线观看| 欧美美女18p| 在线看片福利| 国产一区二区视频在线观看| 三级中文字幕在线观看| 美女福利视频一区| 国产美女性感在线观看懂色av| 中文一区二区视频| 天堂网www中文在线| 日韩一区二区三区四区| 国产精品成人无码| 日韩一区二区三区av| 人妻精品无码一区二区| 在线播放视频一区| 欧美性受xxxx狂喷水| 国产亚洲精品高潮| 日韩av官网| 国产精品久久久久7777婷婷| 日本精品视频| 色一情一乱一伦一区二区三区| 西野翔中文久久精品国产| 午夜一区二区三区| 好吊视频一区二区三区四区| caoporn超碰97| 高清不卡在线观看| 日本少妇一区二区三区| 久久人人爽爽爽人久久久| 天天综合天天做| 欧洲一区在线观看| 波多野结衣不卡| 日韩视频免费观看高清完整版| 日产精品久久久久久久性色| 操人视频在线观看欧美| 理论片午午伦夜理片在线播放| 97在线视频一区| 久久综合偷偷噜噜噜色| 亚洲a∨一区二区三区| 999在线观看精品免费不卡网站| 性生生活大片免费看视频| 91啪亚洲精品| 日韩免费一二三区| 欧美日韩黄色大片| 五月婷婷激情视频| 日本在线中文字幕一区| 亚洲专区在线视频| 日韩一区二区在线免费| 欧美少妇性生活视频| 成人av在线一区二区| 精品伦一区二区三区| 国产精品久久久久久久第一福利| 天天操天天摸天天干| 精品国产污污免费网站入口 | 一区二区三区在线免费看| 91久久大香伊蕉在人线| 日韩欧美不卡| 成人3d动漫一区二区三区| 久久看人人爽人人| 91精品国产乱码久久久张津瑜| 福利视频第一区| 亚洲美女福利视频| 亚洲精品成人久久电影| 婷婷av在线| 91青青草免费在线看| 国产精品99久久久久久动医院| 91人人澡人人爽人人精品| 精品一区二区成人精品| 日本一区二区视频在线播放| 日本韩国欧美三级| 成人在线免费电影| 国产精品久久99久久| 精品国产精品久久一区免费式| 黄色a级片免费| 久久久国产精品午夜一区ai换脸| 国产又大又黄又粗| 亚洲天堂男人天堂女人天堂| 欧美亚洲韩国| 亚洲v国产v| 国内精品伊人久久久久av影院| 日本二区三区视频| 欧美一区二区三区视频免费| 91精品久久| 国产成人精品在线| 精品欧美激情在线观看| 天天干在线影院| 成人免费视频网站在线观看| 麻豆成人在线视频| 亚洲国产精品字幕| 粉嫩一区二区| 亚洲一区3d动漫同人无遮挡 | 国产亚洲精品成人a| 亚洲国产日韩在线一区模特| 人妻无码中文字幕| 人妖精品videosex性欧美| 成人在线国产| 国产探花在线观看视频| 亚洲国产成人porn| 国内三级在线观看| 国产日韩欧美夫妻视频在线观看 | 无码日韩人妻精品久久蜜桃| 国产清纯在线一区二区www| 一二三四区在线| 久久久久久免费精品| 欧美成人aaa| 美乳视频一区二区| 欧美人成在线| 波多野结衣先锋影音| 欧美在线视频不卡| 亚洲卡一卡二| 欧美成人一区二区在线| 久久国产综合精品| 欧美黄色一级生活片| 午夜不卡av免费| 国产福利在线| 97免费高清电视剧观看| 久久久久综合| 高h视频免费观看| 亚洲人成电影网站色www| 国产一区 二区|