认知颠覆 · COGNITIVE OVERTURN

半步更新的哲学：不等到结局才学习

我们直觉上认为"必须等事情完全结束才能公正评价"，但TD学习证明：每一步的半成品更新都比等到结局更高效。这不是因为半成品更准确——它其实有偏差（依赖自己的估计）——但偏差-方差权衡中，方差降低带来的收益压倒了偏差。学习的敌人不是"不够准确"，而是"信息到达太晚"。

《强化学习：导论》第6章，TD学习

个人复盘习惯——与其年底总结，不如每日/每周用即时反馈修正判断；产品迭代——与其等完美版本发布，不如用最小可行产品获取即时数据。

这本书回答了智能体如何在未知环境中通过试错学习最优决策，答案是时序差分学习。

PRESS YOUR OWN BOOK

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP