可迁移模型 · TRANSFERABLE MODEL
资格迹提供了一种比"归因模型"更优雅的时间信用分配方案
资格迹的核心直觉是"记忆尾巴"——每个状态的资格迹值反映了它在最近有多活跃。当最终结果(TD误差)产生时,按资格迹值的比例分配信用。这比人工设计归因规则(如最后触点归因、线性衰减归因、时间衰减归因)更优雅——λ自动学习了最优的信用分配时间尺度。
来自这本书的解读报告
《Reinforcement Learning: An Introduction (2nd edition》
这本书回答了智能体如何从试错经验中学会决策的问题,答案是通过时序差分学习在无模型条件下逐步逼近最优策略。
阅读完整解读报告 →