admin_ted, Author at 翔超科技

BASH SHELL 快速鍵列表

Leave a Comment / 伺服器管理, 常用技能 / By admin_ted

set -o vi # 若習慣用 vi , 可直接以前述指令將 bash shell 快速鍵轉換為 vi 操作。 Alt-F: 到此行的後一個字 Alt-B: 到此行的前一個字 Ctrl-A: 回到此行最前面 Ctrl-E: 到此行的最後面 Ctrl-U: 清除一行中游標之前的所有文字 Ctrl-K: 清除一行字游標之後的所有文字 Ctrl-H: 移除游標前的一個字元(同 backspace) Ctrl-D: 移除游標後的一個字元(若於命令列有字的話) Ctrl-D: 結束輸入(如果您在 shell 下，就會跳出該 shell) Ctrl-C: 終止正在執行的程式 Ctrl-Z: 暫時停止程式(將該工作放到背景) (fg 1, fg 2 拿回) Ctrl-S: 停止輸出到畫面上(類似 Scroll Lock, ex: cat xxx 需暫停時使用) Ctrl-Q: …

BASH SHELL 快速鍵列表 Read More »

reinforcement learning framework-強化學習框架

Leave a Comment / 未分類 / By admin_ted

python 相關的強化學習框架 https://github.com/IntelLabs/coach ACKTR Actor Critic using Kronecker-Factored Trust Region(ACKTR) OpenAI 發佈了兩個演算法：ACKTR 和 A2C。A2C 是 A3C（Asynchronous Advantage Actor Critic）的一個同步變體，兩者具有相同的性能。而 ACKTR 是一個比 A2C 和 TRPO 樣本效率更高的強化學習算法，且每次更新僅比 A2C 略慢。 ACKTR 融合了三種不同的技術：以 actor-critic 算法為基礎，加上 TRPO 來保證穩定性，同時融入了提升樣本效率和可擴展性的分佈式 Kronecker 因子分解（Kronecker factorization）。 ACKTR 也適用於大規模分佈式訓練。因為其不僅利用每個樣本來估計梯度（gradient estimate），而且使用該樣本信息去估計參數空間的局部曲率（local curvature）。論文：Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation 摘要：在該研究中，我們將近期的提出的 Kronecker 因子的近似曲率（K-FAC），和置信域優化，應用到深度強化學習中。我們將該方法命名為「Actor Critic using …

reinforcement learning framework-強化學習框架 Read More »