可迁移模型 · TRANSFERABLE MODEL
系统奖励的不是价值观,而是"表演价值观"的能力
当一个系统的表面规则("我们重视正道")与实际奖励规则("谁最会表演正道谁上位")背离时,伪善不是bug而是feature。最成功的不是最正直的人,而是最会"表演正直"的人。这种系统会自我强化——伪善者上位后会设计更有利于伪善者的新规则。
来自这本书的解读报告
《飞狐外传》
这本书追问了一群'好人'如何合谋杀人后仍觉得自己无辜,以及复仇者在追寻正义的路上如何一步步变成自己厌恶的人。
阅读完整解读报告 →