Home

RL学习随记

免模型控制 把策略迭代进行广义的推广,使它能够兼容蒙特卡洛和时序差分的方法,即带有蒙特卡洛方法和时序差分方法的广义策略迭代(generalized policy iteration,GPI)

Read more

SVD与EVD

前阵子在知乎看自动化保研面试,其中一个题目是奇异值和特征值的区别,细想我还真不太懂,就找了些解答,截取简明的部分记录下。

Read more