认知颠覆 · COGNITIVE OVERTURN
"致命三角"揭示了"三个好东西组合在一起可能是灾难"
函数逼近、自举、离策略学习各自单独使用都是好的技术,但三者组合可能导致系统发散——这被称为"致命三角"(Deadly Triad)。这个洞察的深层含义是:在复杂系统中,局部正确不等于全局正确。每个组件单独验证通过,组合后仍可能失败。这不是RL特有的问题——任何涉及多个组件交互的系统都可能有类似陷阱。
来自这本书的解读报告
《Reinforcement Learning: An Introduction (2nd edition》
这本书回答了智能体如何从试错经验中学会决策的问题,答案是通过时序差分学习在无模型条件下逐步逼近最优策略。
阅读完整解读报告 →