可迁移模型 · TRANSFERABLE MODEL
不确定性作为安全机制:不知道比知道更安全
传统安全思维是"让系统足够强大以应对一切",罗素提出了一种逆向思维:让系统"足够不确定"以保持谦逊。一个永远认为"我可能理解错了你的需求"的系统,比一个自信满满执行目标的系统安全得多。这把"不确定性"从缺陷重新定义为特性。
来自这本书的解读报告
《人类兼容:人工智能与人类的控制问题》
这本书回答了超级智能如何被人类安全控制的问题,它的答案是让机器以人类偏好为中心并保持不确定。
阅读完整解读报告 →