可迁移模型 · TRANSFERABLE MODEL

机器应该害怕的不是被关掉,而是不被关掉

在标准模型下,一个理性的AI会抵制关机(因为关机妨碍目标实现)。罗素指出,解法不是给AI加上"允许关机"的规则(这会被绕过),而是从根本上改变AI的目标结构——让AI的效用函数内在地依赖于人类的判断。在这个新架构下,被关机不再是"目标失败"的信号,而是"人类在纠正我"的信号——这正是一个学习中的智能体应该欢迎的事情。
来源

《人类兼容》第三章,关机问题

可迁移到

组织设计中"可中断性"的概念——一个健康的组织系统(项目、团队、流程)应该内置"被叫停不被视为失败"的机制;一个害怕被关掉的系统已经在某种程度上失控了。

来自这本书的解读报告

《人类兼容:人工智能与控制问题》

斯图尔特·罗素 (Stuart Russell) · 人工智能伦理 / AI安全

这本书回答了如何让智能机器保持可控的问题,它的答案是让机器对人类目标保持不确定并主动服从人类判断。

AI安全·价值对齐·控制问题·逆强化学习·人机协作
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →