可迁移模型 · TRANSFERABLE MODEL

不确定性作为安全机制：不知道比知道更安全

传统安全思维是"让系统足够强大以应对一切"，罗素提出了一种逆向思维：让系统"足够不确定"以保持谦逊。一个永远认为"我可能理解错了你的需求"的系统，比一个自信满满执行目标的系统安全得多。这把"不确定性"从缺陷重新定义为特性。

《人类兼容》第四至六章 / 不确定性偏好架构

管理学中的"谦逊领导力"（humble leadership）——优秀的管理者不是"知道所有答案"的人，而是"知道自己可能理解错了团队需求"的人。

这本书回答了超级智能如何被人类安全控制的问题，它的答案是让机器以人类偏好为中心并保持不确定。

PRESS YOUR OWN BOOK

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP