可迁移模型 · TRANSFERABLE MODEL

对齐问题的本质不是"让AI听我们的话"，而是"让AI不确定我们想要什么"

传统的AI安全思维是"确保AI执行人类的指令"——这仍然是标准模型。罗素的范式转换在于：安全不是让AI"确定地执行"，而是让AI"不确定地学习"。一台声称自己完全理解人类目标的AI才是最危险的，因为它可能在错误的理解上全力以赴。最安全的AI是那台时刻在问"你确定这是你想要的吗？"的AI。

《人类兼容》第六至八章，合作逆强化学习

领导力——最好的领导不是那个声称"我知道公司该往哪走"的人，而是那个持续问团队"我们确定这是对的方向吗？"的人；教育——最好的老师不是那个认为自己完全理解学生需求的人，而是那个持续询问和调整的老师。

这本书回答了如何让智能机器保持可控的问题，它的答案是让机器对人类目标保持不确定并主动服从人类判断。

PRESS YOUR OWN BOOK

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP