可迁移模型 · TRANSFERABLE MODEL
对齐问题的本质不是"让AI听我们的话",而是"让AI不确定我们想要什么"
传统的AI安全思维是"确保AI执行人类的指令"——这仍然是标准模型。罗素的范式转换在于:安全不是让AI"确定地执行",而是让AI"不确定地学习"。一台声称自己完全理解人类目标的AI才是最危险的,因为它可能在错误的理解上全力以赴。最安全的AI是那台时刻在问"你确定这是你想要的吗?"的AI。
来自这本书的解读报告
《人类兼容:人工智能与控制问题》
这本书回答了如何让智能机器保持可控的问题,它的答案是让机器对人类目标保持不确定并主动服从人类判断。
阅读完整解读报告 →