认知颠覆 · COGNITIVE OVERTURN

智能体与环境的边界是任意的

Sutton指出：智能体和环境之间的边界不是由物理世界决定的，而是由"哪些部分你能控制、哪些部分你只能观察"决定的。你可以选择将什么纳入"自我"（智能体）、什么归入"世界"（环境）。这意味着——同一个人，选择不同的"自我边界"，会做出完全不同的决策。把情绪纳入"你能控制的"vs."你只能观察的"，会导致完全不同的人生策略。

来源

《强化学习：导论》第1.7节，智能体与环境的边界

可迁移到

心理治疗中的"控制二分法"（Stoic哲学的现代版）；团队管理中的边界设定——哪些决策你放权（纳入环境的一部分，由团队自动处理）、哪些你收紧（纳入自我，由你控制）。

来自这本书的解读报告

《Reinforcement Learning: An Introduction》

Richard S. Sutton, Andrew G. Barto · 人工智能 / 决策科学 / 控制论

这本书回答了智能体如何在未知环境中通过试错学习最优决策，答案是时序差分学习。

强化学习·序列决策·试错学习·奖励塑形·价值函数

阅读完整解读报告 →

PRESS YOUR OWN BOOK

找一本想读的书，解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →