Home - 徐文江

重要性采样策略梯度是一个同策略的算法。PPO是策略梯度的变形，它是现在 OpenAI 默认的强化学习算法。

策略梯度策略一般记作 π。假设我们使用深度学习来做强化学习，策略就是一个网络。网络里面有一些参数，我们用 θ 来代表 π 的参数。

免模型控制把策略迭代进行广义的推广，使它能够兼容蒙特卡洛和时序差分的方法，即带有蒙特卡洛方法和时序差分方法的广义策略迭代（generalized policy iteration，GPI）

动态规划方法、蒙特卡洛方法以及时序差分方法的自举和采样

TCP/IP 协议自顶向下分别是：应用层、传输层、网络层、链路层。

静态链接库和动态链接库

IP地址、子网掩码、网关、DNS的关系及网络分层架构

前阵子在知乎看自动化保研面试，其中一个题目是奇异值和特征值的区别，细想我还真不太懂，就找了些解答，截取简明的部分记录下。

125 post articles, 16 pages.