reinforcement learning framework-強化學習框架

python 相關的強化學習框架

ACKTR

Actor Critic using Kronecker-Factored Trust Region(ACKTR)

OpenAI 發佈了兩個演算法：ACKTR 和 A2C。A2C 是 A3C（Asynchronous Advantage Actor Critic）的一個同步變體，兩者具有相同的性能。而 ACKTR 是一個比 A2C 和 TRPO 樣本效率更高的強化學習算法，且每次更新僅比 A2C 略慢。

ACKTR 融合了三種不同的技術：以 actor-critic 算法為基礎，加上 TRPO 來保證穩定性，同時融入了提升樣本效率和可擴展性的分佈式 Kronecker 因子分解（Kronecker factorization）。

ACKTR 也適用於大規模分佈式訓練。因為其不僅利用每個樣本來估計梯度（gradient estimate），而且使用該樣本信息去估計參數空間的局部曲率（local curvature）。

論文：Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation

摘要：在該研究中，我們將近期的提出的 Kronecker 因子的近似曲率（K-FAC），和置信域優化，應用到深度強化學習中。我們將該方法命名為「Actor Critic using Kronecker-Factored Trust Region」，（ACKTR）。就我們所知，這是首個可擴展的置信域自然梯度 actor-critic 的方法。同時它也能直接從原始像素輸入（raw pixel input）中成功學習連續和離散的控制任務。我們在 Atari 遊戲和 MuJoCo 環境中對此方法進行測試。與之前最頂尖的 on-policy actor critic 方法相比，我們提出的方法不僅能夠獲取更高的獎勵，而且平均樣本效率提高了 2 到 3 倍。代碼地址：https://github.com/openai/baselines。

資料參考:

https://blog.csdn.net/bbbeoy/article/details/106984109

https://www.gushiciku.cn/dc_hk/102094156

ACKTR

Leave a Comment Cancel Reply

準備好與我們一起翱翔天際了嗎?

翔超科技

提供的服務