可迁移模型 · TRANSFERABLE MODEL

对齐问题的本质不是"让AI听我们的话",而是"让AI不确定我们想要什么"

传统的AI安全思维是"确保AI执行人类的指令"——这仍然是标准模型。罗素的范式转换在于:安全不是让AI"确定地执行",而是让AI"不确定地学习"。一台声称自己完全理解人类目标的AI才是最危险的,因为它可能在错误的理解上全力以赴。最安全的AI是那台时刻在问"你确定这是你想要的吗?"的AI。
来源

《人类兼容》第六至八章,合作逆强化学习

可迁移到

领导力——最好的领导不是那个声称"我知道公司该往哪走"的人,而是那个持续问团队"我们确定这是对的方向吗?"的人;教育——最好的老师不是那个认为自己完全理解学生需求的人,而是那个持续询问和调整的老师。

来自这本书的解读报告

《人类兼容:人工智能与控制问题》

斯图尔特·罗素 (Stuart Russell) · 人工智能伦理 / AI安全

这本书回答了如何让智能机器保持可控的问题,它的答案是让机器对人类目标保持不确定并主动服从人类判断。

AI安全·价值对齐·控制问题·逆强化学习·人机协作
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →