可迁移模型 · TRANSFERABLE MODEL

不确定性作为安全机制:不知道比知道更安全

传统安全思维是"让系统足够强大以应对一切",罗素提出了一种逆向思维:让系统"足够不确定"以保持谦逊。一个永远认为"我可能理解错了你的需求"的系统,比一个自信满满执行目标的系统安全得多。这把"不确定性"从缺陷重新定义为特性。
来源

《人类兼容》第四至六章 / 不确定性偏好架构

可迁移到

管理学中的"谦逊领导力"(humble leadership)——优秀的管理者不是"知道所有答案"的人,而是"知道自己可能理解错了团队需求"的人。

来自这本书的解读报告

《人类兼容:人工智能与人类的控制问题》

斯图尔特·罗素 (Stuart Russell) · 人工智能安全 / AI伦理 / 控制论

这本书回答了超级智能如何被人类安全控制的问题,它的答案是让机器以人类偏好为中心并保持不确定。

AI安全·控制问题·偏好学习·机器伦理·对齐
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →