精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

面向強化學習的狀態空間建模:RSSM的介紹和PyTorch實現

開發 前端
循環狀態空間模型(Recurrent State Space Models, RSSM)最初由 Danijar Hafer 等人在論文《Learning Latent Dynamics for Planning from Pixels》中提出。

循環狀態空間模型(Recurrent State Space Models, RSSM)最初由 Danijar Hafer 等人在論文《Learning Latent Dynamics for Planning from Pixels》中提出。該模型在現代基于模型的強化學習(Model-Based Reinforcement Learning, MBRL)中發揮著關鍵作用,其主要目標是構建可靠的環境動態預測模型。通過這些學習得到的模型,智能體能夠模擬未來軌跡并進行前瞻性的行為規劃。

下面我們就來用一個實際案例來介紹RSSM。

環境配置

環境配置是實現過程中的首要步驟。我們這里用易于使用的 Gym API。為了提高實現效率,設計了多個模塊化的包裝器(wrapper),用于初始化參數并將觀察結果調整為指定格式。

InitialWrapper 的設計允許在不執行任何動作的情況下進行特定數量的觀察,同時支持在返回觀察結果之前多次重復同一動作。這種設計對于響應具有顯著延遲特性的環境特別有效。

PreprocessFrame 包裝器負責將觀察結果轉換為正確的數據類型(本文中使用 numpy 數組),并支持灰度轉換功能。

class InitialWrapper(gym.Wrapper):  
     def __init__(self, env: gym.Env, no_ops: int = 0, repeat: int = 1):  
         super(InitialWrapper, self).__init__(env)  
         self.repeat = repeat  
         self.no_ops = no_ops  
 
         self.op_counter = 0  
   
     def step(self, action: ActType) -> Tuple[ObsType, float, bool, bool, dict]:  
         if self.op_counter < self.no_ops:  
             obs, reward, done, info = self.env.step(0)  
             self.op_counter += 1  
   
         total_reward = 0.0  
         done = False  
         for _ in range(self.repeat):  
             obs, reward, done, info = self.env.step(action)  
             total_reward += reward  
             if done:  
                 break  
   
         return obs, total_reward, done, info  
 
 
 class PreprocessFrame(gym.ObservationWrapper):  
     def __init__(self, env: gym.Env, new_shape: Sequence[int] = (128, 128, 3), grayscale: bool = False):  
         super(PreprocessFrame, self).__init__(env)  
         self.shape = new_shape  
         self.observation_space = gym.spaces.Box(low=0.0, high=1.0, shape=self.shape, dtype=np.float32)  
         self.grayscale = grayscale  
   
         if self.grayscale:  
             self.observation_space = gym.spaces.Box(low=0.0, high=1.0, shape=(*self.shape[:-1], 1), dtype=np.float32)  
   
     def observation(self, obs: torch.Tensor) -> torch.Tensor:  
         obs = obs.astype(np.uint8)  
         new_frame = cv.resize(obs, self.shape[:-1], interpolation=cv.INTER_AREA)  
         if self.grayscale:  
             new_frame = cv.cvtColor(new_frame, cv.COLOR_RGB2GRAY)  
             new_frame = np.expand_dims(new_frame, -1)  
   
         torch_frame = torch.from_numpy(new_frame).float()  
         torch_frame = torch_frame / 255.0  
   
         return torch_frame  
   
 def make_env(env_name: str, new_shape: Sequence[int] = (128, 128, 3), grayscale: bool = True, **kwargs):  
     env = gym.make(env_name, **kwargs)  
     env = PreprocessFrame(env, new_shape, grayscale=grayscale)  
     return env

make_env 函數用于創建一個具有指定配置參數的環境實例。

模型架構

RSSM 的實現依賴于多個關鍵模型組件。具體來說,需要實現以下四個核心模塊:

  • 原始觀察編碼器(Encoder)
  • 動態模型(Dynamics Model):通過確定性狀態 h 和隨機狀態 s 對編碼觀察的時間依賴性進行建模
  • 解碼器(Decoder):將隨機狀態和確定性狀態映射回原始觀察空間
  • 獎勵模型(Reward Model):將隨機狀態和確定性狀態映射到獎勵值

RSSM 模型組件結構圖。模型包含隨機狀態 s 和確定性狀態 h。

編碼器實現

編碼器采用簡單的卷積神經網絡(CNN)結構,將輸入圖像降維到一維嵌入表示。實現中使用了 BatchNorm 來提升訓練穩定性。

class EncoderCNN(nn.Module):  
     def __init__(self, in_channels: int, embedding_dim: int = 2048, input_shape: Tuple[int, int] = (128, 128)):  
         super(EncoderCNN, self).__init__()  
         # 定義卷積層結構
         self.conv1 = nn.Conv2d(in_channels, 32, kernel_size=3, stride=2, padding=1)  
         self.conv2 = nn.Conv2d(32, 64, kernel_size=3, stride=2, padding=1)  
         self.conv3 = nn.Conv2d(64, 128, kernel_size=3, stride=2, padding=1)  
         self.conv4 = nn.Conv2d(128, 256, kernel_size=3, stride=2, padding=1)  
   
         self.fc1 = nn.Linear(self._compute_conv_output((in_channels, input_shape[0], input_shape[1])), embedding_dim)  
   
         # 批標準化層
         self.bn1 = nn.BatchNorm2d(32)  
         self.bn2 = nn.BatchNorm2d(64)  
         self.bn3 = nn.BatchNorm2d(128)  
         self.bn4 = nn.BatchNorm2d(256)  
   
     def _compute_conv_output(self, shape: Tuple[int, int, int]):  
         with torch.no_grad():  
             x = torch.randn(1, shape[0], shape[1], shape[2])  
             x = self.conv1(x)  
             x = self.conv2(x)  
             x = self.conv3(x)  
             x = self.conv4(x)  
   
             return x.shape[1] * x.shape[2] * x.shape[3]  
 
     def forward(self, x):  
         x = torch.relu(self.conv1(x))  
         x = self.bn1(x)  
         x = torch.relu(self.conv2(x))  
         x = self.bn2(x)  
   
         x = torch.relu(self.conv3(x))  
         x = self.bn3(x)  
   
         x = self.conv4(x)  
         x = self.bn4(x)  
   
         x = x.view(x.size(0), -1)  
         x = self.fc1(x)  
   
         return x

解碼器實現

解碼器遵循傳統自編碼器架構設計,其功能是將編碼后的觀察結果重建回原始觀察空間。

class DecoderCNN(nn.Module):  
     def __init__(self, hidden_size: int, state_size: int,  embedding_size: int,  
                  use_bn: bool = True, output_shape: Tuple[int, int] = (3, 128, 128)):  
         super(DecoderCNN, self).__init__()  
   
         self.output_shape = output_shape  
   
         self.embedding_size = embedding_size  
         # 全連接層進行特征變換
         self.fc1 = nn.Linear(hidden_size + state_size, embedding_size)  
         self.fc2 = nn.Linear(embedding_size, 256 * (output_shape[1] // 16) * (output_shape[2] // 16))  
   
         # 反卷積層進行上采樣
         self.conv1 = nn.ConvTranspose2d(256, 128, kernel_size=3, stride=2, padding=1, output_padding=1)  # ×2  
         self.conv2 = nn.ConvTranspose2d(128, 64, kernel_size=3, stride=2, padding=1, output_padding=1)  # ×2  
         self.conv3 = nn.ConvTranspose2d(64, 32, kernel_size=3, stride=2, padding=1, output_padding=1)  # ×2  
         self.conv4 = nn.ConvTranspose2d(32, output_shape[0], kernel_size=3, stride=2, padding=1, output_padding=1)  
   
         # 批標準化層
         self.bn1 = nn.BatchNorm2d(128)  
         self.bn2 = nn.BatchNorm2d(64)  
         self.bn3 = nn.BatchNorm2d(32)  
   
         self.use_bn = use_bn  
 
     def forward(self, h: torch.Tensor, s: torch.Tensor):  
         x = torch.cat([h, s], dim=-1)  
         x = self.fc1(x)  
         x = torch.relu(x)  
         x = self.fc2(x)  
   
         x = x.view(-1, 256, self.output_shape[1] // 16, self.output_shape[2] // 16)  
   
         if self.use_bn:  
             x = torch.relu(self.bn1(self.conv1(x)))  
             x = torch.relu(self.bn2(self.conv2(x)))  
             x = torch.relu(self.bn3(self.conv3(x)))  
   
         else:  
             x = torch.relu(self.conv1(x))  
             x = torch.relu(self.conv2(x))  
             x = torch.relu(self.conv3(x))  
   
         x = self.conv4(x)  
   
         return x

獎勵模型實現

獎勵模型采用了一個三層前饋神經網絡結構,用于將隨機狀態 s 和確定性狀態 h 映射到正態分布參數,進而通過采樣獲得獎勵預測。

class RewardModel(nn.Module):  
     def __init__(self, hidden_dim: int, state_dim: int):  
         super(RewardModel, self).__init__()  
   
         self.fc1 = nn.Linear(hidden_dim + state_dim, hidden_dim)  
         self.fc2 = nn.Linear(hidden_dim, hidden_dim)  
         self.fc3 = nn.Linear(hidden_dim, 2)  
   
     def forward(self, h: torch.Tensor, s: torch.Tensor):  
         x = torch.cat([h, s], dim=-1)  
         x = torch.relu(self.fc1(x))  
         x = torch.relu(self.fc2(x))  
         x = self.fc3(x)  
   
         return x

動態模型的實現

動態模型是 RSSM 架構中最復雜的組件,需要同時處理先驗和后驗狀態轉移模型:

  1. 后驗轉移模型:在能夠訪問真實觀察的情況下使用(主要在訓練階段),用于在給定觀察和歷史狀態的條件下近似隨機狀態的后驗分布。
  2. 先驗轉移模型:用于近似先驗狀態分布,僅依賴于前一時刻狀態,不依賴于觀察。這在無法獲取后驗觀察的推理階段使用。

這兩個模型均通過單層前饋網絡進行參數化,輸出各自正態分布的均值和對數方差,用于狀態 s 的采樣。該實現采用了簡單的網絡結構,但可以根據需要擴展為更復雜的架構。

確定性狀態采用門控循環單元(GRU)實現。其輸入包括:

  • 前一時刻的隱藏狀態
  • 獨熱編碼動作
  • 前一時刻隨機狀態 s(根據是否可以獲取觀察來選擇使用后驗或先驗狀態)

這些輸入信息足以讓模型了解動作歷史和系統狀態。以下是具體實現代碼:

class DynamicsModel(nn.Module):  
     def __init__(self, hidden_dim: int, action_dim: int, state_dim: int, embedding_dim: int, rnn_layer: int = 1):  
         super(DynamicsModel, self).__init__()  
   
         self.hidden_dim = hidden_dim  
           
         # 遞歸層實現,支持多層 GRU
         self.rnn = nn.ModuleList([nn.GRUCell(hidden_dim, hidden_dim) for _ in range(rnn_layer)])  
           
         # 狀態動作投影層
         self.project_state_action = nn.Linear(action_dim + state_dim, hidden_dim)  
           
         # 先驗網絡:輸出正態分布參數
         self.prior = nn.Linear(hidden_dim, state_dim * 2)  
         self.project_hidden_action = nn.Linear(hidden_dim + action_dim, hidden_dim)  
           
         # 后驗網絡:輸出正態分布參數
         self.posterior = nn.Linear(hidden_dim, state_dim * 2)  
         self.project_hidden_obs = nn.Linear(hidden_dim + embedding_dim, hidden_dim)  
   
         self.state_dim = state_dim  
         self.act_fn = nn.ReLU()  
   
     def forward(self, prev_hidden: torch.Tensor, prev_state: torch.Tensor, actions: torch.Tensor,  
                 obs: torch.Tensor = None, dones: torch.Tensor = None):  
         """  
        動態模型的前向傳播
        參數:  
            prev_hidden: RNN的前一隱藏狀態,形狀 (batch_size, hidden_dim)  
            prev_state: 前一隨機狀態,形狀 (batch_size, state_dim)  
            actions: 獨熱編碼動作序列,形狀 (sequence_length, batch_size, action_dim)  
            obs: 編碼器輸出的觀察嵌入,形狀 (sequence_length, batch_size, embedding_dim)  
            dones: 終止狀態標志
        """  
         B, T, _ = actions.size()  # 用于無觀察訪問時的推理
   
         # 初始化存儲列表
         hiddens_list = []  
         posterior_means_list = []  
         posterior_logvars_list = []  
         prior_means_list = []  
         prior_logvars_list = []  
         prior_states_list = []  
         posterior_states_list = []  
           
         # 存儲初始狀態
         hiddens_list.append(prev_hidden.unsqueeze(1))    
         prior_states_list.append(prev_state.unsqueeze(1))  
         posterior_states_list.append(prev_state.unsqueeze(1))  
   
         # 時序展開
         for t in range(T - 1):  
             # 提取當前時刻狀態和動作
             action_t = actions[:, t, :]  
             obs_t = obs[:, t, :] if obs is not None else torch.zeros(B, self.embedding_dim, device=actions.device)  
             state_t = posterior_states_list[-1][:, 0, :] if obs is not None else prior_states_list[-1][:, 0, :]  
             state_t = state_t if dones is None else state_t * (1 - dones[:, t, :])  
             hidden_t = hiddens_list[-1][:, 0, :]  
               
             # 狀態動作組合
             state_action = torch.cat([state_t, action_t], dim=-1)  
             state_action = self.act_fn(self.project_state_action(state_action))  
   
             # RNN 狀態更新
             for i in range(len(self.rnn)):  
                 hidden_t = self.rnn[i](state_action, hidden_t)  
   
             # 先驗分布計算
             hidden_action = torch.cat([hidden_t, action_t], dim=-1)  
             hidden_action = self.act_fn(self.project_hidden_action(hidden_action))  
             prior_params = self.prior(hidden_action)  
             prior_mean, prior_logvar = torch.chunk(prior_params, 2, dim=-1)  
   
             # 從先驗分布采樣
             prior_dist = torch.distributions.Normal(prior_mean, torch.exp(F.softplus(prior_logvar)))  
             prior_state_t = prior_dist.rsample()  
   
             # 后驗分布計算
             if obs is None:  
                 posterior_mean = prior_mean  
                 posterior_logvar = prior_logvar  
             else:  
                 hidden_obs = torch.cat([hidden_t, obs_t], dim=-1)  
                 hidden_obs = self.act_fn(self.project_hidden_obs(hidden_obs))  
                 posterior_params = self.posterior(hidden_obs)  
                 posterior_mean, posterior_logvar = torch.chunk(posterior_params, 2, dim=-1)  
   
             # 從后驗分布采樣
             posterior_dist = torch.distributions.Normal(posterior_mean, torch.exp(F.softplus(posterior_logvar)))  
             posterior_state_t = posterior_dist.rsample()  
   
             # 保存狀態
             posterior_means_list.append(posterior_mean.unsqueeze(1))  
             posterior_logvars_list.append(posterior_logvar.unsqueeze(1))  
             prior_means_list.append(prior_mean.unsqueeze(1))  
             prior_logvars_list.append(prior_logvar.unsqueeze(1))  
             prior_states_list.append(prior_state_t.unsqueeze(1))  
             posterior_states_list.append(posterior_state_t.unsqueeze(1))  
             hiddens_list.append(hidden_t.unsqueeze(1))  
   
         # 合并時序數據
         hiddens = torch.cat(hiddens_list, dim=1)  
         prior_states = torch.cat(prior_states_list, dim=1)  
         posterior_states = torch.cat(posterior_states_list, dim=1)  
         prior_means = torch.cat(prior_means_list, dim=1)  
         prior_logvars = torch.cat(prior_logvars_list, dim=1)  
         posterior_means = torch.cat(posterior_means_list, dim=1)  
         posterior_logvars = torch.cat(posterior_logvars_list, dim=1)  
   
         return hiddens, prior_states, posterior_states, prior_means, prior_logvars, posterior_means, posterior_logvars

需要特別注意的是,這里的觀察輸入并非原始觀察數據,而是經過編碼器處理后的嵌入表示。這種設計能夠有效降低計算復雜度并提升模型的泛化能力。

RSSM 整體架構

將前述組件整合為完整的 RSSM 模型。其核心是 generate_rollout 方法,負責調用動態模型并生成環境動態的潛在表示序列。對于沒有歷史潛在狀態的情況(通常發生在軌跡開始時),該方法會進行必要的初始化。下面是完整的實現代碼:

class RSSM:  
     def __init__(self,  
                  encoder: EncoderCNN,  
                  decoder: DecoderCNN,  
                  reward_model: RewardModel,  
                  dynamics_model: nn.Module,  
                  hidden_dim: int,  
                  state_dim: int,  
                  action_dim: int,  
                  embedding_dim: int,  
                  device: str = "mps"):  
         """  
        循環狀態空間模型(RSSM)實現
         
        參數:
            encoder: 確定性狀態編碼器
            decoder: 觀察重構解碼器
            reward_model: 獎勵預測模型
            dynamics_model: 狀態動態模型
            hidden_dim: RNN 隱藏層維度
            state_dim: 隨機狀態維度
            action_dim: 動作空間維度
            embedding_dim: 觀察嵌入維度
            device: 計算設備
        """  
         super(RSSM, self).__init__()  
   
         # 模型組件初始化
         self.dynamics = dynamics_model  
         self.encoder = encoder  
         self.decoder = decoder  
         self.reward_model = reward_model  
   
         # 維度參數存儲
         self.hidden_dim = hidden_dim  
         self.state_dim = state_dim  
         self.action_dim = action_dim  
         self.embedding_dim = embedding_dim  
   
         # 模型遷移至指定設備
         self.dynamics.to(device)  
         self.encoder.to(device)  
         self.decoder.to(device)  
         self.reward_model.to(device)  
   
     def generate_rollout(self, actions: torch.Tensor, hiddens: torch.Tensor = None, states: torch.Tensor = None,  
                          obs: torch.Tensor = None, dones: torch.Tensor = None):  
         """
        生成狀態序列展開
         
        參數:
            actions: 動作序列
            hiddens: 初始隱藏狀態(可選)
            states: 初始隨機狀態(可選)
            obs: 觀察序列(可選)
            dones: 終止標志序列
             
        返回:
            完整的狀態展開序列
        """
         # 狀態初始化
         if hiddens is None:  
             hiddens = torch.zeros(actions.size(0), self.hidden_dim).to(actions.device)  
   
         if states is None:  
             states = torch.zeros(actions.size(0), self.state_dim).to(actions.device)  
   
         # 執行動態模型展開
         dynamics_result = self.dynamics(hiddens, states, actions, obs, dones)  
         hiddens, prior_states, posterior_states, prior_means, prior_logvars, posterior_means, posterior_logvars = dynamics_result  
   
         return hiddens, prior_states, posterior_states, prior_means, prior_logvars, posterior_means, posterior_logvars  
   
     def train(self):  
         """啟用訓練模式"""
         self.dynamics.train()  
         self.encoder.train()  
         self.decoder.train()  
         self.reward_model.train()  
   
     def eval(self):  
         """啟用評估模式"""
         self.dynamics.eval()  
         self.encoder.eval()  
         self.decoder.eval()  
         self.reward_model.eval()  
   
     def encode(self, obs: torch.Tensor):  
         """觀察編碼"""
         return self.encoder(obs)  
   
     def decode(self, state: torch.Tensor):  
         """狀態解碼為觀察"""
         return self.decoder(state)  
   
     def predict_reward(self, h: torch.Tensor, s: torch.Tensor):  
         """獎勵預測"""
         return self.reward_model(h, s)  
   
     def parameters(self):  
         """返回所有可訓練參數"""
         return list(self.dynamics.parameters()) + list(self.encoder.parameters()) + \
                list(self.decoder.parameters()) + list(self.reward_model.parameters())  
   
     def save(self, path: str):  
         """模型狀態保存"""
         torch.save({  
             "dynamics": self.dynamics.state_dict(),  
             "encoder": self.encoder.state_dict(),  
             "decoder": self.decoder.state_dict(),  
             "reward_model": self.reward_model.state_dict()  
        }, path)  
   
     def load(self, path: str):  
         """模型狀態加載"""
         checkpoint = torch.load(path)  
         self.dynamics.load_state_dict(checkpoint["dynamics"])  
         self.encoder.load_state_dict(checkpoint["encoder"])  
         self.decoder.load_state_dict(checkpoint["decoder"])  
         self.reward_model.load_state_dict(checkpoint["reward_model"])

這個實現提供了一個完整的 RSSM 框架,包含了模型的訓練、評估、狀態保存和加載等基本功能。該框架可以作為基礎結構,根據具體應用場景進行擴展和優化。

訓練系統設計

RSSM 的訓練系統主要包含兩個核心組件:經驗回放緩沖區(Experience Replay Buffer)和智能體(Agent)。其中,緩沖區負責存儲歷史經驗數據用于訓練,而智能體則作為環境與 RSSM 之間的接口,實現數據收集策略。

經驗回放緩沖區實現

緩沖區采用循環隊列結構,用于存儲和管理觀察、動作、獎勵和終止狀態等數據。通過 sample 方法可以隨機采樣訓練序列。

class Buffer:  
     def __init__(self, buffer_size: int, obs_shape: tuple, action_shape: tuple, device: torch.device):  
         """
        經驗回放緩沖區初始化
         
        參數:
            buffer_size: 緩沖區容量
            obs_shape: 觀察數據維度
            action_shape: 動作數據維度
            device: 計算設備
        """
         self.buffer_size = buffer_size  
         self.obs_buffer = np.zeros((buffer_size, *obs_shape), dtype=np.float32)  
         self.action_buffer = np.zeros((buffer_size, *action_shape), dtype=np.int32)  
         self.reward_buffer = np.zeros((buffer_size, 1), dtype=np.float32)  
         self.done_buffer = np.zeros((buffer_size, 1), dtype=np.bool_)  
   
         self.device = device  
         self.idx = 0  
   
     def add(self, obs: torch.Tensor, action: int, reward: float, done: bool):  
         """
        添加單步經驗數據
        """
         self.obs_buffer[self.idx] = obs  
         self.action_buffer[self.idx] = action  
         self.reward_buffer[self.idx] = reward  
         self.done_buffer[self.idx] = done  
         self.idx = (self.idx + 1) % self.buffer_size  
 
     def sample(self, batch_size: int, sequence_length: int):  
         """
        隨機采樣經驗序列
         
        參數:
            batch_size: 批量大小
            sequence_length: 序列長度
             
        返回:
            經驗數據元組 (observations, actions, rewards, dones)
        """
         # 隨機選擇序列起始位置
         starting_idxs = np.random.randint(0, (self.idx % self.buffer_size) - sequence_length, (batch_size,))  
         
         # 構建完整序列索引
         index_tensor = np.stack([np.arange(start, start + sequence_length) for start in starting_idxs])  
         
         # 提取數據序列
         obs_sequence = self.obs_buffer[index_tensor]  
         action_sequence = self.action_buffer[index_tensor]  
         reward_sequence = self.reward_buffer[index_tensor]  
         done_sequence = self.done_buffer[index_tensor]  
   
         return obs_sequence, action_sequence, reward_sequence, done_sequence  
 
     def save(self, path: str):  
         """保存緩沖區數據"""
         np.savez(path, obs_buffer=self.obs_buffer, action_buffer=self.action_buffer,  
                  reward_buffer=self.reward_buffer, done_buffer=self.done_buffer, idx=self.idx)  
   
     def load(self, path: str):  
         """加載緩沖區數據"""
         data = np.load(path)  
         self.obs_buffer = data["obs_buffer"]  
         self.action_buffer = data["action_buffer"]  
         self.reward_buffer = data["reward_buffer"]  
         self.done_buffer = data["done_buffer"]  
         self.idx = data["idx"]

智能體設計

智能體實現了數據收集和規劃功能。當前實現采用了簡單的隨機策略進行數據收集,但該框架支持擴展更復雜的策略。

class Policy(ABC):  
     """策略基類"""
     @abstractmethod  
     def __call__(self, obs):  
         pass  
   
 class RandomPolicy(Policy):  
     """隨機采樣策略"""
     def __init__(self, env: Env):  
         self.env = env  
   
     def __call__(self, obs):  
         return self.env.action_space.sample()  
 
 class Agent:  
     def __init__(self, env: Env, rssm: RSSM, buffer_size: int = 100000,
                  collection_policy: str = "random", device="mps"):  
         """
        智能體初始化
         
        參數:
            env: 環境實例
            rssm: RSSM模型實例
            buffer_size: 經驗緩沖區大小
            collection_policy: 數據收集策略類型
            device: 計算設備
        """
         self.env = env  
         # 策略選擇
         match collection_policy:  
             case "random":  
                 self.rollout_policy = RandomPolicy(env)  
             case _:  
                 raise ValueError("Invalid rollout policy")  
   
         self.buffer = Buffer(buffer_size, env.observation_space.shape,
                            env.action_space.shape, device=device)  
         self.rssm = rssm  
   
     def data_collection_action(self, obs):  
         """執行數據收集動作"""
         return self.rollout_policy(obs)  
   
     def collect_data(self, num_steps: int):  
         """
        收集訓練數據
         
        參數:
            num_steps: 收集步數
        """
         obs = self.env.reset()  
         done = False  
   
         iterator = tqdm(range(num_steps), desc="Data Collection")  
         for _ in iterator:  
             action = self.data_collection_action(obs)  
             next_obs, reward, done, _, _ = self.env.step(action)  
             self.buffer.add(next_obs, action, reward, done)  
             obs = next_obs  
             if done:  
                 obs = self.env.reset()  
   
     def imagine_rollout(self, prev_hidden: torch.Tensor, prev_state: torch.Tensor,
                        actions: torch.Tensor):  
         """
        執行想象展開
         
        參數:
            prev_hidden: 前一隱藏狀態
            prev_state: 前一隨機狀態
            actions: 動作序列
             
        返回:
            完整的模型輸出,包括隱藏狀態、先驗狀態、后驗狀態等
        """
         hiddens, prior_states, posterior_states, prior_means, prior_logvars, \
         posterior_means, posterior_logvars = self.rssm.generate_rollout(
             actions, prev_hidden, prev_state)  
   
         # 在想象階段使用先驗狀態預測獎勵
         rewards = self.rssm.predict_reward(hiddens, prior_states)  
   
         return hiddens, prior_states, posterior_states, prior_means, \
                prior_logvars, posterior_means, posterior_logvars, rewards  
   
     def plan(self, num_steps: int, prev_hidden: torch.Tensor,
              prev_state: torch.Tensor, actions: torch.Tensor):  
         """
        執行規劃
         
        參數:
            num_steps: 規劃步數
            prev_hidden: 初始隱藏狀態
            prev_state: 初始隨機狀態
            actions: 動作序列
             
        返回:
            規劃得到的隱藏狀態和先驗狀態序列
        """
         hidden_states = []  
         prior_states = []  
   
         hiddens = prev_hidden  
         states = prev_state  
   
         for _ in range(num_steps):  
             hiddens, states, _, _, _, _, _, _ = self.imagine_rollout(
                 hiddens, states, actions)  
             hidden_states.append(hiddens)  
             prior_states.append(states)  
   
         hidden_states = torch.stack(hidden_states)  
         prior_states = torch.stack(prior_states)  
   
         return hidden_states, prior_states

這部分實現提供了完整的數據管理和智能體交互框架。通過經驗回放緩沖區,可以高效地存儲和重用歷史數據;通過智能體的抽象策略接口,可以方便地擴展不同的數據收集策略。同時智能體還實現了基于模型的想象展開和規劃功能,為后續的決策制定提供了基礎。

訓練器實現與實驗

訓練器設計

訓練器是 RSSM 實現中的最后一個關鍵組件,負責協調模型訓練過程。訓練器接收 RSSM 模型、智能體、優化器等組件,并實現具體的訓練邏輯。

logging.basicConfig(  
     level=logging.INFO,  
     format="%(asctime)s - %(levelname)s - %(message)s",  
     handlers=[  
         logging.StreamHandler(),  # 控制臺輸出
         logging.FileHandler("training.log", mode="w")  # 文件輸出
    ]  
 )  
   
 logger = logging.getLogger(__name__)  
 
 class Trainer:  
     def __init__(self, rssm: RSSM, agent: Agent, optimizer: torch.optim.Optimizer,
                  device: torch.device):  
         """
        訓練器初始化
         
        參數:
            rssm: RSSM 模型實例
            agent: 智能體實例
            optimizer: 優化器實例
            device: 計算設備
        """
         self.rssm = rssm  
         self.optimizer = optimizer  
         self.device = device  
         self.agent = agent  
         self.writer = SummaryWriter()  # tensorboard 日志記錄器
   
     def train_batch(self, batch_size: int, seq_len: int, iteration: int,
                    save_images: bool = False):  
         """
        單批次訓練
         
        參數:
            batch_size: 批量大小
            seq_len: 序列長度
            iteration: 當前迭代次數
            save_images: 是否保存重建圖像
        """
         # 采樣訓練數據
         obs, actions, rewards, dones = self.agent.buffer.sample(batch_size, seq_len)  
   
         # 數據預處理
         actions = torch.tensor(actions).long().to(self.device)  
         actions = F.one_hot(actions, self.rssm.action_dim).float()  
         obs = torch.tensor(obs, requires_grad=True).float().to(self.device)  
         rewards = torch.tensor(rewards, requires_grad=True).float().to(self.device)  
         dones = torch.tensor(dones).float().to(self.device)  
   
         # 觀察編碼
         encoded_obs = self.rssm.encoder(obs.reshape(-1, *obs.shape[2:]).permute(0, 3, 1, 2))  
         encoded_obs = encoded_obs.reshape(batch_size, seq_len, -1)  
   
         # 執行 RSSM 展開
         rollout = self.rssm.generate_rollout(actions, obs=encoded_obs, dones=dones)  
         hiddens, prior_states, posterior_states, prior_means, prior_logvars, \
         posterior_means, posterior_logvars = rollout  
   
         # 重構觀察
         hiddens_reshaped = hiddens.reshape(batch_size * seq_len, -1)  
         posterior_states_reshaped = posterior_states.reshape(batch_size * seq_len, -1)  
         decoded_obs = self.rssm.decoder(hiddens_reshaped, posterior_states_reshaped)  
         decoded_obs = decoded_obs.reshape(batch_size, seq_len, *obs.shape[-3:])  
   
         # 獎勵預測
         reward_params = self.rssm.reward_model(hiddens, posterior_states)  
         mean, logvar = torch.chunk(reward_params, 2, dim=-1)  
         logvar = F.softplus(logvar)  
         reward_dist = Normal(mean, torch.exp(logvar))  
         predicted_rewards = reward_dist.rsample()  
   
         # 可視化
         if save_images:  
             batch_idx = np.random.randint(0, batch_size)  
             seq_idx = np.random.randint(0, seq_len - 3)  
             fig = self._visualize(obs, decoded_obs, rewards, predicted_rewards,
                                 batch_idx, seq_idx, iteration, grayscale=True)  
             if not os.path.exists("reconstructions"):  
                 os.makedirs("reconstructions")  
             fig.savefig(f"reconstructions/iteration_{iteration}.png")  
             self.writer.add_figure("Reconstructions", fig, iteration)  
             plt.close(fig)  
   
         # 計算損失
         reconstruction_loss = self._reconstruction_loss(decoded_obs, obs)  
         kl_loss = self._kl_loss(prior_means, F.softplus(prior_logvars),
                                posterior_means, F.softplus(posterior_logvars))  
         reward_loss = self._reward_loss(rewards, predicted_rewards)  
   
         loss = reconstruction_loss + kl_loss + reward_loss  
   
         # 反向傳播和優化
         self.optimizer.zero_grad()  
         loss.backward()  
         nn.utils.clip_grad_norm_(self.rssm.parameters(), 1, norm_type=2)  
         self.optimizer.step()  
   
         return loss.item(), reconstruction_loss.item(), kl_loss.item(), reward_loss.item()  
   
     def train(self, iterations: int, batch_size: int, seq_len: int):  
         """
        執行完整訓練過程
         
        參數:
            iterations: 迭代總次數
            batch_size: 批量大小
            seq_len: 序列長度
        """
         self.rssm.train()  
         iterator = tqdm(range(iterations), desc="Training", total=iterations)  
         losses = []  
         infos = []  
         last_loss = float("inf")  
         
         for i in iterator:  
             # 執行單批次訓練
             loss, reconstruction_loss, kl_loss, reward_loss = self.train_batch(
                 batch_size, seq_len, i, save_images=i % 100 == 0)  
   
             # 記錄訓練指標
             self.writer.add_scalar("Loss", loss, i)  
             self.writer.add_scalar("Reconstruction Loss", reconstruction_loss, i)  
             self.writer.add_scalar("KL Loss", kl_loss, i)  
             self.writer.add_scalar("Reward Loss", reward_loss, i)  
   
             # 保存最佳模型
             if loss < last_loss:  
                 self.rssm.save("rssm.pth")  
                 last_loss = loss  
   
             # 記錄詳細信息
             info = {  
                 "Loss": loss,  
                 "Reconstruction Loss": reconstruction_loss,  
                 "KL Loss": kl_loss,  
                 "Reward Loss": reward_loss  
            }  
             losses.append(loss)  
             infos.append(info)  
   
             # 定期輸出訓練狀態
             if i % 10 == 0:  
                 logger.info("\n----------------------------")  
                 logger.info(f"Iteration: {i}")  
                 logger.info(f"Loss: {loss:.4f}")  
                 logger.info(f"Running average last 20 losses: {sum(losses[-20:]) / 20: .4f}")  
                 logger.info(f"Reconstruction Loss: {reconstruction_loss:.4f}")  
                 logger.info(f"KL Loss: {kl_loss:.4f}")  
                 logger.info(f"Reward Loss: {reward_loss:.4f}")
 
 ### 實驗示例
 
 以下是一個在 CarRacing 環境中訓練 RSSM 的完整示例:
 
 ```python
 # 環境初始化
 env = make_env("CarRacing-v2", render_mode="rgb_array", continuous=False, grayscale=True)  
 
 # 模型參數設置
 hidden_size = 1024  
 embedding_dim = 1024  
 state_dim = 512  
 
 # 模型組件實例化
 encoder = EncoderCNN(in_channels=1, embedding_dim=embedding_dim)  
 decoder = DecoderCNN(hidden_size=hidden_size, state_size=state_dim,
                      embedding_size=embedding_dim, output_shape=(1,128,128))  
 reward_model = RewardModel(hidden_dim=hidden_size, state_dim=state_dim)  
 dynamics_model = DynamicsModel(hidden_dim=hidden_size, state_dim=state_dim,
                               action_dim=5, embedding_dim=embedding_dim)  
 
 # RSSM 模型構建
 rssm = RSSM(dynamics_model=dynamics_model,  
             encoder=encoder,  
             decoder=decoder,  
             reward_model=reward_model,  
             hidden_dim=hidden_size,  
             state_dim=state_dim,  
             action_dim=5,  
             embedding_dim=embedding_dim)  
 
 # 訓練設置
 optimizer = torch.optim.Adam(rssm.parameters(), lr=1e-3)  
 agent = Agent(env, rssm)  
 trainer = Trainer(rssm, agent, optimizer=optimizer, device="cuda")  
 
 # 數據收集和訓練
 trainer.collect_data(20000)  # 收集 20000 步經驗數據
 trainer.save_buffer("buffer.npz")  # 保存經驗緩沖區
 trainer.train(10000, 32, 20)  # 執行 10000 次迭代訓練

總結

本文詳細介紹了基于 PyTorch 實現 RSSM 的完整過程。RSSM 的架構相比傳統的 VAE 或 RNN 更為復雜,這主要源于其混合了隨機和確定性狀態的特性。通過手動實現這一架構,我們可以深入理解其背后的理論基礎及其強大之處。RSSM 能夠遞歸地生成未來潛在狀態軌跡,這為智能體的行為規劃提供了基礎。

實現的優點在于其計算負載適中,可以在單個消費級 GPU 上進行訓練,在有充足時間的情況下甚至可以在 CPU 上運行。這一工作基于論文《Learning Latent Dynamics for Planning from Pixels》,該論文為 RSSM 類動態模型奠定了基礎。后續的研究工作如《Dream to Control: Learning Behaviors by Latent Imagination》進一步發展了這一架構。這些改進的架構將在未來的研究中深入探討,因為它們對理解 MBRL 方法提供了重要的見解。

責任編輯:華軒 來源: DeepHub IMBA
相關推薦

2023-03-23 16:30:53

PyTorchDDPG算法

2020-08-10 06:36:21

強化學習代碼深度學習

2024-01-26 08:31:49

2022-05-31 10:45:01

深度學習防御

2019-09-29 10:42:02

人工智能機器學習技術

2022-03-25 10:35:20

機器學習深度學習強化學習

2020-11-12 19:31:41

強化學習人工智能機器學習

2021-09-17 15:54:41

深度學習機器學習人工智能

2023-01-24 17:03:13

強化學習算法機器人人工智能

2023-06-25 11:30:47

可視化

2025-05-08 09:16:00

模型強化學習訓練

2025-01-03 11:46:31

2020-06-05 08:09:01

Python強化學習框架

2023-07-20 15:18:42

2022-11-02 14:02:02

強化學習訓練

2023-03-09 08:00:00

強化學習機器學習圍棋

2024-12-09 08:45:00

模型AI

2023-08-14 16:49:13

強化學習時態差分法

2020-05-12 07:00:00

深度學習強化學習人工智能

2023-12-03 22:08:41

深度學習人工智能
點贊
收藏

51CTO技術棧公眾號

黄色在线看片| 日本精品入口免费视频| 欧美三级一区| 亚洲第一搞黄网站| 日韩色妇久久av| 日韩小视频在线播放| 91精品久久久久久久99蜜桃| 亚洲国产一区二区三区a毛片| 欧美wwwww| 亚洲狠狠爱一区二区三区| 久久影视中文粉嫩av| 亚洲天堂中文网| 99精品国产在热久久婷婷| 中文字幕av一区中文字幕天堂| 三日本三级少妇三级99| 日本在线免费观看| 我家有个日本女人| 日韩三区四区| 色伊人久久综合中文字幕| 玖玖精品在线视频| 国产黄在线观看免费观看不卡| 国产99一区视频免费| 国产精品一区二区在线| 日韩av在线电影| 91精品亚洲| 亚洲日本成人女熟在线观看| 欧美xxxxx少妇| 欧美性aaa| 色爱区综合激月婷婷| 免费的一级黄色片| 1pondo在线播放免费| 96av麻豆蜜桃一区二区| 亚洲一区久久久| 免费在线观看av的网站| 亚洲国产91| 久久久国产精品一区| 亚洲午夜福利在线观看| 国产欧美三级电影| 日韩精品专区在线影院观看| 第四色婷婷基地| 四虎成人在线| 色欧美片视频在线观看| 欧美一区二区三区爽大粗免费| 伊人在我在线看导航| 欧美激情综合在线| 日韩欧美99| 日韩精品123| 91一区二区在线观看| 国外成人在线视频网站| 亚洲av无码乱码国产麻豆| 国产乱人伦精品一区二区在线观看| 国产精品久久久久久网站| 国产婷婷色一区二区在线观看| 99国产一区| 国外成人在线视频| 日韩熟女精品一区二区三区| 影音先锋一区| 2018日韩中文字幕| 久久久久女人精品毛片九一| 超碰99在线| 91蝌蚪精品视频| 91精品国产综合久久久蜜臀粉嫩| 午夜两性免费视频| 九九九精品视频| 欧美猛男男办公室激情| 色呦色呦色精品| 九九九九九九精品任你躁| 91精品国产福利在线观看| 四川一级毛毛片| 在线播放一区二区精品视频| 欧美tk—视频vk| 一本加勒比波多野结衣| 一区二区三区视频免费观看| 亚洲四色影视在线观看| 小嫩苞一区二区三区| 一区二区国产在线| 韩国视频理论视频久久| caoporn国产| 蜜臀av一级做a爰片久久| 亚洲精品欧美一区二区三区| 成人久久精品人妻一区二区三区| 91一区二区在线观看| 亚洲一区二区三区精品动漫| 在线观看三级视频| 欧美日韩免费网站| 一道本视频在线观看| 免费一级欧美在线大片| 亚洲国产天堂久久综合网| 波多野结衣片子| 亚洲二区三区不卡| 97免费中文视频在线观看| 无码视频在线观看| 国产精品一区免费视频| 精品久久中出| 国产写真视频在线观看| 亚洲444eee在线观看| 91香蕉视频污版| 欧美日韩黄色| 国产一区二区三区在线播放免费观看| 成人免费精品动漫网站| 亚洲一区欧美激情| 亚洲最大成人网色| 九九九伊在人线综合| 亚洲精品videosex极品| 免费观看成人在线视频| 91蜜桃臀久久一区二区| 亚洲免费一在线| 日韩精品一区二区亚洲av性色| 国产欧美丝祙| 97超碰最新| 国产在线自天天| 亚洲mv大片欧洲mv大片精品| www.超碰97.com| 伊甸园亚洲一区| 久久久久久久久爱| 国产一区二区三区在线观看| 26uuu精品一区二区在线观看| 欧美精品久久96人妻无码| 最新欧美电影| 亚洲护士老师的毛茸茸最新章节| 三级av在线免费观看| 日韩精品一二区| 精品国产二区在线| 欧美性爽视频| 91精品国产综合久久久久久久| 青青草福利视频| 亚洲精品护士| 国产精品一区二| 亚洲淫性视频| 正在播放一区二区| 可以免费看av的网址| 日本午夜一本久久久综合| 麻豆传媒一区二区| √天堂8资源中文在线| 日韩欧美在线影院| 外国一级黄色片| 精品制服美女久久| 一区二区不卡在线| 97精品资源在线观看| 最近2019年手机中文字幕| 永久免费无码av网站在线观看| 成人99免费视频| 国产毛片久久久久久国产毛片| а天堂中文最新一区二区三区| 在线视频欧美日韩| 最新在线中文字幕| 国产精品免费久久| 性chinese极品按摩| 精品理论电影在线| 国产精品亚洲精品| seseavlu视频在线| 欧美日韩国产高清一区二区| 亚洲综合第一区| 免费xxxx性欧美18vr| 涩涩涩999| 一区在线不卡| 久久国产精品久久久久久久久久 | 成人在线免费观看视视频| 自拍视频在线免费观看| 欧美日韩国产另类一区| 小泽玛利亚一区二区免费| 国产激情精品久久久第一区二区| 国产911在线观看| 成人av动漫| 欧美一级大片在线观看| 九色在线观看视频| 欧美乱妇20p| 久久久www成人免费毛片| 成人av在线看| 日日碰狠狠躁久久躁婷婷| 精品福利久久久| 成人免费看片视频| gogo高清在线播放免费| 亚洲人精选亚洲人成在线| 怡春院在线视频| 一区二区国产盗摄色噜噜| 久久久久麻豆v国产精华液好用吗| 鲁大师影院一区二区三区| 亚洲国产欧美不卡在线观看 | 男人在线观看视频| 国产成人精品亚洲日本在线桃色| aa视频在线播放| 欧美限制电影| av色综合网| 日本欧美不卡| 色综合91久久精品中文字幕| 深夜福利视频在线观看| 欧美久久久久久蜜桃| 日韩精品成人在线| 国产精品免费免费| 一级特级黄色片| 精品一区二区三区免费视频| 福利视频一二区| 日韩毛片视频| 精品久久精品久久| 99视频有精品高清视频| 2019亚洲男人天堂| 好吊日视频在线观看| 亚洲国产天堂久久国产91| 91国内精品久久久| 欧美日韩国产一中文字不卡| 免费看一级大片| 久久精品在这里| 中文字幕亚洲日本| 欧美aaaaaa午夜精品| 国产在线播放观看| 91精品国产麻豆国产在线观看| 噜噜噜噜噜久久久久久91| 日韩一二三区在线观看| 国产精品日韩一区| 国产高潮在线| 欧美日韩国产二区| 在线观看免费版| 亚洲精品久久久久久久久| 国产精品视频a| 日本道色综合久久| 日产精品久久久久| 亚洲精品成人精品456| 免费黄色国产视频| 国产日韩在线不卡| 美国黄色一级毛片| 成人av先锋影音| 四虎国产精品免费| 日本中文字幕不卡| 日本成人黄色网| 日日摸夜夜添夜夜添亚洲女人| 成年人网站免费视频| 影音先锋在线一区| 男人天堂a在线| 欧美在线日韩| 少妇高潮大叫好爽喷水| 欧美hd在线| 中文字幕久久综合| 91综合久久| 亚洲国产另类久久久精品极度| 欧美熟乱15p| 先锋影音网一区| 不卡在线一区| 亚洲一区不卡在线| 99国产精品一区二区| 亚洲高清视频一区| 日韩欧美一区免费| 先锋影音亚洲资源| 99精品视频在线观看播放| 一区二区三区四区国产| 欧美aaaaaaaaaaaa| 一级黄色免费在线观看| 天天精品视频| 法国空姐在线观看免费| 欧美a级在线| 日韩激情视频一区二区| 伊人久久大香线蕉综合热线 | 日韩av高清| 菠萝蜜一区二区| 精品久久免费观看| 欧美~级网站不卡| 日韩 欧美 视频| 亚洲一级在线| 网站一区二区三区| 精品一区二区国语对白| 天天干天天曰天天操| 国产 欧美在线| 一区二区视频观看| 国产天堂亚洲国产碰碰| 日韩av片在线免费观看| 亚洲男同性视频| 日韩欧美国产亚洲| 色婷婷av一区二区三区大白胸| 中文字幕av影视| 91精品国产福利在线观看| 亚洲精品字幕在线| 亚洲人a成www在线影院| 午夜视频在线观看网站| 欧美大片第1页| 乡村艳史在线观看| 国产精品丝袜视频| 91午夜精品| 午夜久久资源| 1024成人| 免费看污黄网站| 粉嫩aⅴ一区二区三区四区五区| 黄色录像a级片| 国产精品美女www爽爽爽| 久久久久久天堂| 日本道免费精品一区二区三区| 国产免费一区二区三区最新不卡| 亚洲第一网中文字幕| 国产69精品久久app免费版| 久久成人免费视频| 欧美大片免费| 99久久伊人精品影院| 深爱激情久久| 久久精品xxx| 另类调教123区| 亚洲一区二区三区四区五区六区| 国产精品丝袜在线| 日本三级视频在线| 欧美挠脚心视频网站| 日本一二三区在线视频| 操91在线视频| 国产成人福利夜色影视| 久久草.com| 欧美日本不卡| 老司机午夜av| 国产福利91精品一区二区三区| 亚洲成人黄色av| 午夜久久久影院| 国产成人精品av在线观| 在线看欧美日韩| 深夜在线视频| 粉嫩av一区二区三区免费观看| 日韩伦理视频| 日本成人黄色网| 91丨国产丨九色丨pron| 免费人成视频在线| 欧美乱妇一区二区三区不卡视频| 黄色在线视频观看网站| 久久频这里精品99香蕉| 国产精品一站二站| 亚洲一区精彩视频| 日一区二区三区| 爱爱免费小视频| 亚洲国产一区二区三区| 国产日本精品视频| 日韩视频免费在线观看| 精品三区视频| 日本婷婷久久久久久久久一区二区| 亚洲福利国产| 东京热av一区| 亚洲超丰满肉感bbw| 精品欧美一区二区精品少妇| 日韩性生活视频| 久久精品国产精品亚洲毛片| 日韩精品伦理第一区| 噜噜噜91成人网| 亚洲国产av一区| 一本色道亚洲精品aⅴ| 亚洲日本中文字幕在线| 97国产精品视频| 老司机成人在线| 久久国产成人精品国产成人亚洲| 成人性视频免费网站| 精品少妇theporn| 精品国产伦一区二区三区免费| 男女羞羞视频在线观看| 成人蜜桃视频| 亚洲日本激情| 99久久国产精| 91激情五月电影| av在线三区| 成人乱色短篇合集| 亚洲国产老妈| 在线中文字日产幕| 亚洲成人av电影| 人操人视频在线观看| 日韩av大片在线| 国产a久久精品一区二区三区| 北条麻妃在线视频| 一区在线中文字幕| 国产白浆在线观看| 孩xxxx性bbbb欧美| 嫩草影视亚洲| 中文字幕免费高清在线| 一区二区三区国产精品| 天天干天天插天天操| 国产z一区二区三区| 欧美国产小视频| 亚洲av无一区二区三区久久| 一区二区三区免费观看| 亚洲三级中文字幕| 国产精品视频最多的网站| 亚洲高清资源在线观看| 日韩aaaaa| 欧美在线视频全部完| www红色一片_亚洲成a人片在线观看_| 波多野结衣久草一区| 久久人人超碰| 国产av无码专区亚洲av毛网站| 欧美精品一区男女天堂| 在线人成日本视频| 亚洲人成人77777线观看| 国产成人av在线影院| 日本视频在线观看免费| 久久久91精品国产| 欧美美女啪啪| 老司机久久精品| 婷婷久久综合九色综合伊人色| 香蕉视频在线看| 国产在线资源一区| 久久狠狠亚洲综合| 91美女免费看| 久久天天躁日日躁| 国产欧美一区二区精品久久久| 91在线第一页| 色婷婷综合久久久中文字幕| 国产精品va在线观看视色| 欧美精品一区在线| 国产91精品免费| 在线免费观看日韩视频| 68精品久久久久久欧美|