Home

尝试用chat-gpt做一个简单的GAN对抗学习绘制动漫图像的网络，将此次有趣的经历记录下来。

输入命令在’'’和’'’之间，然后按下ctrl+enter就可以运行了。（太恐怖了，我的后半句话甚至是它给我自动生成的

对于这些连续的动作，Q学习、深度Q网络等算法是没有办法处理的。那我们怎么输出连续的动作呢？这个时候，“万能”的神经网络又出现了

模仿学习（imitation learning，IL）讨论的问题是，假设我们连奖励都没有，要怎么进行更新以及让智能体与环境交互呢？模仿学习又被称为示范学习（learning from demonstration），学徒学习（apprenticeship learning），观察学习（learning by watching）。

如果环境中的奖励非常稀疏，强化学习的问题就会变得非常困难

演员-评论员算法是一种结合策略梯度和时序差分学习的强化学习方法

双深度网络（double DQN，DDQN）在实际上，Q 值往往是被高估的。

深度Q网络传统的强化学习算法会使用表格的形式存储状态价值函数V或动作价值函数Q，但是这样的方法存在很大的局限性。例如，现实中的强化学习任务所面临的状态空间往往是连续的，存在无穷多个状态，在这种情况下，就不能再使用表格对价值函数进行存储。价值函数近似（value function approximation）利用函数直接拟合状态价值函数或动作价值函数，降低了对存储空间的要求，有效地解决了这个问题。

尝试命令GPT写一个GAN

使用copilot写一个模仿学习

RL学习随记-深度确定性策略梯度

RL学习随记-模仿学习

RL学习随记-稀疏奖励

RL学习随记-演员-评论员算法

RL学习随记-DQN进阶

RL学习随记-DQN