可迁移模型 · TRANSFERABLE MODEL

奖励定义即世界观:你优化什么,就成为什么

智能体会精确地最大化你给它的奖励——不多也不少。如果你奖励"停留时长",它会学会让人上瘾;如果你奖励"点击率",它会学会制造标题党。这意味着:定义奖励函数不是技术活,是价值选择。你的奖励定义就是你的世界观的数学编码。
来源

《强化学习:导论》第17章,奖励塑形与强化学习的人类视角

可迁移到

KPI设计——指标就是奖励函数,错误的指标会导致团队"精确地做错误的事";AI对齐——RLHF中的人类反馈本身就是一种不完美的奖励信号,会引入反馈者的价值偏见。

来自这本书的解读报告

《Reinforcement Learning: An Introduction》

Richard S. Sutton, Andrew G. Barto · 人工智能 / 决策科学 / 控制论

这本书回答了智能体如何在未知环境中通过试错学习最优决策,答案是时序差分学习。

强化学习·序列决策·试错学习·奖励塑形·价值函数
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →