认知颠覆 · COGNITIVE OVERTURN

"致命三角"揭示了"三个好东西组合在一起可能是灾难"

函数逼近、自举、离策略学习各自单独使用都是好的技术，但三者组合可能导致系统发散——这被称为"致命三角"（Deadly Triad）。这个洞察的深层含义是：在复杂系统中，局部正确不等于全局正确。每个组件单独验证通过，组合后仍可能失败。这不是RL特有的问题——任何涉及多个组件交互的系统都可能有类似陷阱。

来源

《强化学习（第2版）》第11章资格迹（致命三角讨论）

可迁移到

软件架构设计（每个模块单独测试通过但集成后出现涌现性bug）；组织管理（每个部门各自优化但全局冲突）；个人习惯养成（运动、饮食、睡眠各自改善但组合后出现不协调）。

来自这本书的解读报告

《Reinforcement Learning: An Introduction (2nd edition》

Richard S. Sutton / Andrew G. Barto · 机器学习 / 决策科学

这本书回答了智能体如何从试错经验中学会决策的问题，答案是通过时序差分学习在无模型条件下逐步逼近最优策略。

强化学习·序贯决策·价值函数·探索与利用·试错学习

阅读完整解读报告 →

PRESS YOUR OWN BOOK

找一本想读的书，解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →