认知颠覆 · COGNITIVE OVERTURN
半步更新的哲学:不等到结局才学习
我们直觉上认为"必须等事情完全结束才能公正评价",但TD学习证明:每一步的半成品更新都比等到结局更高效。这不是因为半成品更准确——它其实有偏差(依赖自己的估计)——但偏差-方差权衡中,方差降低带来的收益压倒了偏差。学习的敌人不是"不够准确",而是"信息到达太晚"。
来自这本书的解读报告
《Reinforcement Learning: An Introduction》
这本书回答了智能体如何在未知环境中通过试错学习最优决策,答案是时序差分学习。
阅读完整解读报告 →