綜合LSTM、transformer，DeepMind強化學習智慧體提高資料效率

選自arXiv

作者：Andrea Banino等

機器之心編譯

編輯：陳萍、杜偉

來自 DeepMind 的研究者提出了用於強化學習的 CoBERL 智慧體，它結合了新的對比損失以及混合 LSTM-transformer 架構，可以提高處理資料效率。實驗表明，CoBERL 在整個 Atari 套件、一組控制任務和具有挑戰性的 3D 環境中可以不斷提高效能。

近些年，多智慧體強化學習取得了突破性進展，例如 DeepMind 開發的 AlphaStar 在星際爭霸 II 中擊敗了職業星際玩家，超過了 99。8% 的人類玩家；OpenAI Five 在 DOTA2 中多次擊敗世界冠軍隊伍，是首個在電子競技比賽中擊敗冠軍的人工智慧系統。然而，許多強化學習（RL）智慧體需要大量的實驗才能解決任務。

最近，DeepMind 的研究者提出了 CoBERL（Contrastive BERT for RL）智慧體，它結合了新的對比損失和混合 LSTM-transformer 架構，以提高處理資料效率。CoBERL 使得從更廣泛領域使用畫素級資訊進行高效、穩健學習成為可能。

具體地，研究者使用雙向掩碼預測，並且結合最近的對比方法泛化，來學習 RL 中 transformer 更好的表徵，而這一過程不需要手動進行資料擴充。實驗表明，CoBERL 在整個 Atari 套件、一組控制任務和具有挑戰性的 3D 環境中可以不斷提高效能。

論文地址：https：//arxiv。org/pdf/2107。05431。pdf

方法介紹

為了解決深度強化學習中的資料效率問題，研究者對目前的研究提出了兩種修改：

首先提出了一種新的表徵學習目標，旨在透過增強掩碼輸入預測中的自注意力一致性來學習更好的表徵；

其次提出了一種架構改進，該架構可以結合 LSTM 以及 transformer 的優勢。

CoBERL 整體架構圖。

表徵學習

研究者將 BERT 與對比學習結合起來。基於 BERT 方法，該研究將 transformer 的雙向處理機制與掩碼預測設定相結合。雙向處理機制一方面允許智慧體根據時間環境來了解特定狀態的上下文。另一方面，位於掩碼位置處的預測輸入透過降低預測後續時間步長的機率來緩解相關輸入問題。

研究者還使用了對比學習，雖然許多對比損失（例如 SimCLR）依賴於資料擴充來建立可以進行比較的資料分組，但該研究不需要利用這些手工資料擴充來構造代理任務。

相反地，該研究依賴輸入資料的順序性質來建立對比學習所需的相似和不同點的必要分組，不需要僅依賴影象觀測的資料增強（如裁剪和畫素變化）。對於對比損失，研究者使用了 RELIC，該損失同樣適應於時間域；他們透過對齊 GTrXL transformer 輸入和輸出建立資料分組，並且使用 RELIC 作為 KL 正則化改進所用方法的效能，例如 SimCLR 在影象分類領域以及 Atari 在 RL 領域效能都得到提高。

CoBERL 架構

在自然語言處理和計算機視覺任務當中，transformer 在連線長範圍資料依賴性方面非常有效，但在 RL 設定中，transformer 難以訓練並且容易過擬合。相反，LSTM 在 RL 中已經被證明非常有用。儘管 LSTM 不能很好地捕獲長範圍的依賴關係，但卻可以高效地捕獲短範圍的依賴關係。

該研究提出了一個簡單但強大的架構改變：

在 GTrXL 頂部添加了一個 LSTM 層，同時在 LSTM 和 GTrXL 之間有一個額外的門控殘差連線，由 GTrXL 的輸入進行調製

。此外，該架構還有一個包含從 transformer 輸入到 LSTM 輸出的跳躍連線。更具體地說，Y_t 在時間 t 時編碼器網路的輸出，可以用下列方程定義附加模組：

這些模組是互補的，因為 transformer 沒有最近偏差，而 LSTM 的偏差可以表示最近的輸入——等式 6 中的 Gate 允許編碼器表徵和 transformer 輸出混合。這種記憶體架構與 RL 機制的選擇無關，研究者在開啟和關閉策略（on and off-policy）設定中評估了這種架構。對於 on-policy 設定，該研究使用 V-MPO 作為 RL 演算法。V-MPO 使用目標分佈進行策略更新，並在 KL 約束下將引數部分移向該目標。對於 off-policy 設定，研究者使用 R2D2。

R2D2 智慧體

：R2D2（Recurrent Replay Distributed DQN）演示瞭如何調整 replay 和 RL 學習目標，以適用於具有迴圈架構的智慧體。鑑於其在 Atari-57 和 DMLab-30 上的競爭效能，研究者在 R2D2 的背景下實現了 CoBERL 架構。他們用門控 transformer 和 LSTM 組合有效地替換了 LSTM，並添加了對比表示學習損失。因此，透過 R2D2，以及分散式經驗收集的益處，將迴圈智慧體狀態儲存在 replay buffer 中，並在訓練期間「燒入」（burning in）具有 replay 序列展開網路的一部分。

V-MPO 智慧體

：鑑於 V-MPO 在 DMLab-30 上的強大效能，特別是與作為 CoBERL 關鍵元件的 GTrXL 架構相結合，該研究使用 V-MPO 和 DMLab30 來演示 CoBERL 與 on-policy 演算法的使用。V-MPO 是一種基於最大後驗機率策略最佳化（MPO）的 on-policy 自適應演算法。為了避免策略梯度方法中經常出現的高方差，V-MPO 使用目標分佈進行策略更新，受基於樣本的 KL 約束，計算梯度將引數部分移向目標，這樣也同樣受 KL 約束。與 MPO 不同，V-MPO 使用可學習的狀態 - 價值函式 V（s）而不是狀態 - 動作價值函式。

實驗細節

研究者證明了 1） CoBERL 在更為廣泛的環境和任務中能夠提高效能，2）最大化效能還需要所有元件。實驗展示了 CoBERL 在 Atari57 、DeepMind Control Suite 和 DMLab-30 中的效能。

下表 1 為目前可獲得的不同智慧體的結果。由結果可得，CoBERL 在大多數遊戲中的表現高於人類平均水平，並且顯著高於同類演算法平均效能。R2D2-GTrXL 的中值（median）略優於 CoBERL，表明 R2D2-GTrXL 確實是 Atari 上的強大變體。研究者還觀察到在檢查「25th Pct 以及 5th Pct」時，CoBERL 的效能和其他演算法的差異更大，這表明 CoBERL 提高了資料效率。