可迁移模型 · TRANSFERABLE MODEL

2. "我不知道你想要什么"比"我知道你想要什么"更安全

Russell的核心洞察是,AI对人类偏好的"不确定性"不是弱点而是安全特性。一个承认"我不确定"的AI,会倾向于观察、询问、等待;一个假设"我知道"的AI,会倾向于独断、操纵、控制。在任何权力不对等关系中,承认不确定性反而是更好的策略。
来源

三原则框架

可迁移到

咨询关系、领导力、亲密关系——任何一方比另一方"更强"的关系

来自这本书的解读报告

《与人类兼容:人工智能与控制问题》

Stuart Russell · 人工智能安全 / 科技伦理

这本书回答了超级AI如何避免伤害人类,答案是让机器承认不知道人类真正想要什么

AI安全·控制问题·对齐问题·价值对齐·超级智能
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →