Home

RL学习随记-模仿学习

模仿学习(imitation learning,IL) 讨论的问题是,假设我们连奖励都没有,要怎么进行更新以及让智能体与环境交互呢?模仿学习又被称为示范学习(learning from demonstration),学徒学习(apprenticeship learning),观察学习(learning by watching)。

Read more

RL学习随记-DQN

深度Q网络 传统的强化学习算法会使用表格的形式存储状态价值函数V或动作价值函数Q,但是这样的方法存在很大的局限性。例如,现实中的强化学习任务所面临的状态空间往往是连续的,存在无穷多个状态,在这种情况下,就不能再使用表格对价值函数进行存储。 价值函数近似(value function approximation)利用函数直接拟合状态价值函数或动作价值函数,降低了对存储空间的要求,有效地解决了这个问题。

Read more