金句级表达 · PITHY EXPRESSION

探索的反直觉价值：短期确定性的丧失换来长期可能性的扩展

在不确定环境中，"只做已知最好的事"看起来理性，实际上是一种系统性地放弃信息价值的行为。每次你拒绝探索，你省下的是"今天的确定性成本"，但你损失的是"明天的策略空间"。最优的探索率不是零——确定性本身就是一种幻觉，因为你对"已知最优"的估计可能根本不准。

《强化学习：导论》第2章，探索-利用权衡

职业规划——深耕的隐含假设是"我已知的方向就是最好的方向"，这个假设需要持续用探索来校验；投资——不持有任何"不确定"资产的组合看似安全，实际上是"确定性地放弃了发现新机会的可能性"。

这本书回答了智能体如何在未知环境中通过试错学习最优决策，答案是时序差分学习。

PRESS YOUR OWN BOOK

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP