认知颠覆 · COGNITIVE OVERTURN

智能体与环境的边界是任意的

Sutton指出:智能体和环境之间的边界不是由物理世界决定的,而是由"哪些部分你能控制、哪些部分你只能观察"决定的。你可以选择将什么纳入"自我"(智能体)、什么归入"世界"(环境)。这意味着——同一个人,选择不同的"自我边界",会做出完全不同的决策。把情绪纳入"你能控制的"vs."你只能观察的",会导致完全不同的人生策略。
来源

《强化学习:导论》第1.7节,智能体与环境的边界

可迁移到

心理治疗中的"控制二分法"(Stoic哲学的现代版);团队管理中的边界设定——哪些决策你放权(纳入环境的一部分,由团队自动处理)、哪些你收紧(纳入自我,由你控制)。

来自这本书的解读报告

《Reinforcement Learning: An Introduction》

Richard S. Sutton, Andrew G. Barto · 人工智能 / 决策科学 / 控制论

这本书回答了智能体如何在未知环境中通过试错学习最优决策,答案是时序差分学习。

强化学习·序列决策·试错学习·奖励塑形·价值函数
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →