可迁移模型 · TRANSFERABLE MODEL

奖励定义即世界观：你优化什么，就成为什么

智能体会精确地最大化你给它的奖励——不多也不少。如果你奖励"停留时长"，它会学会让人上瘾；如果你奖励"点击率"，它会学会制造标题党。这意味着：定义奖励函数不是技术活，是价值选择。你的奖励定义就是你的世界观的数学编码。

《强化学习：导论》第17章，奖励塑形与强化学习的人类视角

KPI设计——指标就是奖励函数，错误的指标会导致团队"精确地做错误的事"；AI对齐——RLHF中的人类反馈本身就是一种不完美的奖励信号，会引入反馈者的价值偏见。

这本书回答了智能体如何在未知环境中通过试错学习最优决策，答案是时序差分学习。

PRESS YOUR OWN BOOK

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP