可迁移模型 · TRANSFERABLE MODEL
奖励定义即世界观:你优化什么,就成为什么
智能体会精确地最大化你给它的奖励——不多也不少。如果你奖励"停留时长",它会学会让人上瘾;如果你奖励"点击率",它会学会制造标题党。这意味着:定义奖励函数不是技术活,是价值选择。你的奖励定义就是你的世界观的数学编码。
来自这本书的解读报告
《Reinforcement Learning: An Introduction》
这本书回答了智能体如何在未知环境中通过试错学习最优决策,答案是时序差分学习。
阅读完整解读报告 →