认知颠覆 · COGNITIVE OVERTURN
TD方法揭示了"用估计更新估计"在信息论上的深刻合理性
传统直觉认为"用估计值来更新估计值"会导致误差累积、是不可靠的。但TD方法从数学上证明了:在满足马尔可夫性和适当步长条件下,自举不仅不会导致误差累积,反而比用真实值更新(MC方法)更高效。这是因为TD在"偏差"(自举引入的)和"方差"(需要完整回报引入的)之间找到了最优折中——多数情况下方差减少的收益大于偏差增加的代价。
来自这本书的解读报告
《Reinforcement Learning: An Introduction (2nd edition》
这本书回答了智能体如何从试错经验中学会决策的问题,答案是通过时序差分学习在无模型条件下逐步逼近最优策略。
阅读完整解读报告 →