Home RL学习随记-PPO算法 重要性采样 策略梯度是一个同策略的算法。PPO是策略梯度的变形,它是现在 OpenAI 默认的强化学习算法。Read more 强化学习 PPO 近端策略优化 徐文江 Mar 12, 2023 RL学习随记-策略梯度 策略梯度 策略一般记作 π。假设我们使用深度学习来做强化学习,策略就是一个网络。网络里面有一些参数,我们用 θ 来代表 π 的参数。Read more 强化学习 策略梯度 徐文江 Mar 11, 2023 RL学习随记 免模型控制 把策略迭代进行广义的推广,使它能够兼容蒙特卡洛和时序差分的方法,即带有蒙特卡洛方法和时序差分方法的广义策略迭代(generalized policy iteration,GPI)Read more 强化学习 策略迭代 免模型算法 徐文江 Mar 07, 2023 RL学习随记 动态规划方法、蒙特卡洛方法以及时序差分方法的自举和采样Read more 强化学习 Sarsa Q-Learning 蒙特卡洛方法 动态规划方法 时序差分方法 徐文江 Mar 07, 2023 计算机网络随记 TCP/IP 协议自顶向下分别是:应用层、传输层、网络层、链路层。Read more 计算机网络 计算机基础 徐文江 Mar 04, 2023 链接库 静态链接库和动态链接库Read more 链接库 计算机基础 徐文江 Feb 28, 2023 计算机网络随机 IP地址、子网掩码、网关、DNS的关系及网络分层架构Read more 计算机网络 计算机基础 徐文江 Feb 28, 2023 SVD与EVD 前阵子在知乎看自动化保研面试,其中一个题目是奇异值和特征值的区别,细想我还真不太懂,就找了些解答,截取简明的部分记录下。Read more 数学 SVD 奇异值 徐文江 Feb 25, 2023 125 post articles, 16 pages. 1 5 6 7 16
RL学习随记-PPO算法 重要性采样 策略梯度是一个同策略的算法。PPO是策略梯度的变形,它是现在 OpenAI 默认的强化学习算法。Read more 强化学习 PPO 近端策略优化 徐文江 Mar 12, 2023
RL学习随记-策略梯度 策略梯度 策略一般记作 π。假设我们使用深度学习来做强化学习,策略就是一个网络。网络里面有一些参数,我们用 θ 来代表 π 的参数。Read more 强化学习 策略梯度 徐文江 Mar 11, 2023
RL学习随记 免模型控制 把策略迭代进行广义的推广,使它能够兼容蒙特卡洛和时序差分的方法,即带有蒙特卡洛方法和时序差分方法的广义策略迭代(generalized policy iteration,GPI)Read more 强化学习 策略迭代 免模型算法 徐文江 Mar 07, 2023
RL学习随记 动态规划方法、蒙特卡洛方法以及时序差分方法的自举和采样Read more 强化学习 Sarsa Q-Learning 蒙特卡洛方法 动态规划方法 时序差分方法 徐文江 Mar 07, 2023
SVD与EVD 前阵子在知乎看自动化保研面试,其中一个题目是奇异值和特征值的区别,细想我还真不太懂,就找了些解答,截取简明的部分记录下。Read more 数学 SVD 奇异值 徐文江 Feb 25, 2023