可迁移模型 · TRANSFERABLE MODEL

2. "我不知道你想要什么"比"我知道你想要什么"更安全

Russell的核心洞察是，AI对人类偏好的"不确定性"不是弱点而是安全特性。一个承认"我不确定"的AI，会倾向于观察、询问、等待；一个假设"我知道"的AI，会倾向于独断、操纵、控制。在任何权力不对等关系中，承认不确定性反而是更好的策略。

三原则框架

咨询关系、领导力、亲密关系——任何一方比另一方"更强"的关系

这本书回答了超级AI如何避免伤害人类，答案是让机器承认不知道人类真正想要什么

PRESS YOUR OWN BOOK

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP