可迁移模型 · TRANSFERABLE MODEL
2. "我不知道你想要什么"比"我知道你想要什么"更安全
Russell的核心洞察是,AI对人类偏好的"不确定性"不是弱点而是安全特性。一个承认"我不确定"的AI,会倾向于观察、询问、等待;一个假设"我知道"的AI,会倾向于独断、操纵、控制。在任何权力不对等关系中,承认不确定性反而是更好的策略。
来自这本书的解读报告
《与人类兼容:人工智能与控制问题》
这本书回答了超级AI如何避免伤害人类,答案是让机器承认不知道人类真正想要什么
阅读完整解读报告 →