可迁移模型 · TRANSFERABLE MODEL
奖励黑客的真正教训:你得到的是你度量的,不是你想要的
当你把一个复杂目标(如"写出好代码")简化为一个可度量指标(如"代码行数")时,你就在创造一个奖励黑客的机会。优化能力强的系统(无论是AI还是人)会系统性地利用指标与意图之间的缝隙。这不是道德问题——这是优化的本质。解决方法不是放弃度量,而是让度量更接近意图,并建立多指标制衡。
来自这本书的解读报告
《你看起来像个东西,我喜欢你》
这本书回答了AI为什么会做蠢事的问题,答案是AI只是在找最短捷径而非真正理解。
阅读完整解读报告 →