Policy - 个人博客

查询到最新的9条

ChatGPT 使用强化学习：Proximal Policy Optimization算法（详细图解）

2023-09-08 0 Comment

ChatGPT 使用强化学习：Proximal Policy Optimization算法强化学习中的PPO（Proximal Policy Optimization）算法是一种高效的策略优化方法，它对于许多任务来说具有很好的性能。PPO的核心思想是限制策略更新的幅度，以实现更稳定的训练过程。接下来，我将分步骤向您介绍PPO算法。步骤1：了解强化学习基础首先，您需要了解强化学习的基本概念，如状态（state）、动作（action）、奖励（reward）、策略（policy）和价值函继续阅读

【人工智能大模型】一文彻底讲透——什么是 PPO（Proximal Policy Optimization，近

2023-08-24 0 Comment

文章目录什么是 PPO（Proximal Policy Optimization，近端策略优化）？PPO 简介PPO 算法流程PPO 的数学公式PPO 算法原理如何在实际应用中使用PPO算法？什么是近端优化？怎样进行近端优化的？什么是 KL 散度？ppo2.py 什么是 PPO（Proximal Policy Optimization，近端策略优化）？继续阅读

使用nodemon出现的错误及解决方法

2023-06-24 0 Comment

nodemon的作用就是在命令中,使用nodemon可以代替node,它的好处在于会自动监听server.js这个文件的变化，如果变化了，就会重新自动再去运行。在我们使用的过程中会出现这样的错误: 解决方法: 1 : 首先 window + r ，输入powershell 也可以cmd 2 : 然后再命令栏输入 set-ExecutionPolicy RemoteSigned; 随后就会出现下面的错误,那么就在出现继续阅读

InvalidKeyException: Illegal key size SecurityExceptio

2023-06-30 0 Comment

参考链接：[url]http://www.cnblogs.com/gdayq/p/5919252.html[/url] 报错1： java.security.InvalidKeyException: Illegal key size 报错2： java.lang.SecurityException: The jurisdiction policy files are not signed by a trusted signer! at javax 继续阅读

[QT_015]Qt学习之基于条目控件的自定义特性（拖拽+右键菜单+样式）

2023-07-04 0 Comment

本文转自：《Qt编程指南》作者：奇先生 Qt编程指南，Qt新手教程，Qt Programming Guide 本节介绍基于条目控件的定制特性，首先介绍条目的拖拽，列表控件、表格控件、树形控件内置了支持拖拽的特性，添加少许代码即可使用。然后介绍控件的右键菜单构造方法，采用的方法是修改基类 QWidget 的 contextMenuPolicy 属性， 继续阅读

Windows 家庭版打不开本地策略编辑器（gpedit.msc）的解决办法

2023-08-08 0 Comment

gpedit.msc 是 Group Policy Editor 的缩写，即组策略编辑器。是管理员为计算机和用户定义的，用来控制应用程序、系统设置和管理模板的一种机制。通俗一点说，是介于控制面板和注册表之间的一种修改系统、设置程序的工具。微软自 Windows NT 4.0开始便采用了组策略这一机制，经过 Windows 2000发展到 Windows XP 已相当完善。利用组策略可以修改 Windows 的桌面、开始菜单、登录方式、组继续阅读

Python-DQN代码阅读-初始化经验回放记忆(replay memory)

2023-08-27 0 Comment

1.代码 def populate_replay_mem(sess, env, state_processor, replay_memory_init_size, policy, epsilon_start, epsilon_end, epsilon_decay_steps, VALID_ACTIONS, Transition):# 重置环境并获取初始状态state = env.reset()# 使用状态处理器对初始状态进行预处理state = state_processor. 继续阅读

体验ChatGPT后，陷入沉思...

2023-09-20 0 Comment

1 前言最近 chatGPT 爆火网络，ChatGPT 到底是什么，今天就一起了解和体验一下。ChatGPT 是由OpenAI开发的一个人工智能聊天机器人程序，该程序使用基于GPT-3.5架构的大型语言模型并通过基于人类反馈强化学习进行训练。模型在Microsoft Azure的超级计算机上训练，并通过近端策略优化算法（proximal policy optimization）进行微调。这种策略优化算法比信任域策继续阅读

《大学英语4》期末考试复习（四）听力四级考试

2023-09-28 0 Comment

2023.3.1 1. A) A proposed policy allowing Africans to travel in Africa without a visa. 一项拟议的政策，允许非洲人免签证在非洲旅行。 B) An agreement among 13 African countries to set up a free-trade zone. C) A plan to invite all African countries to join the Afr 继续阅读