reinforcement learning framework-強化學習框架

python 相關的強化學習框架 https://github.com/IntelLabs/coach ACKTR Actor Critic using Kronecker-Factored Trust Region(ACKTR) OpenAI 發佈了兩個演算法:ACKTR 和 A2C。A2C 是 A3C(Asynchronous Advantage Actor Critic)的一個同步變體,兩者具有相同的性能。而 ACKTR 是一個比 A2C 和 TRPO 樣本效率更高的強化學習算法,且每次更新僅比 A2C 略慢。 ACKTR 融合了三種不同的技術:以 actor-critic 算法為基礎,加上 TRPO 來保證穩定性,同時融入了提升樣本效率和可擴展性的分佈式 Kronecker 因子分解(Kronecker factorization)。 ACKTR 也適用於大規模分佈式訓練。因為其不僅利用每個樣本來估計梯度(gradient estimate),而且使用該樣本信息去估計參數空間的局部曲率(local curvature)。 論文:Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation 摘要:在該研究中,我們將近期的提出的 Kronecker 因子的近似曲率(K-FAC),和置信域優化,應用到深度強化學習中。我們將該方法命名為「Actor Critic using …

reinforcement learning framework-強化學習框架 Read More »