文章目录
- 什么是 PPO(Proximal Policy Optimization,近端策略优化)?
- PPO 简介
- PPO 算法流程
- PPO 的数学公式
- PPO 算法原理
- 如何在实际应用中使用PPO算法?
- 什么是近端优化?怎样进行近端优化的?
- 什么是 KL 散度?
- ppo2.py
什么是 PPO(Proximal Policy Optimization,近端策略优化)?
本文链接:https://my.lmcjl.com/post/4519.html
展开阅读全文
本文链接:https://my.lmcjl.com/post/4519.html
4 评论