可迁移模型 · TRANSFERABLE MODEL

机器应该害怕的不是被关掉，而是不被关掉

在标准模型下，一个理性的AI会抵制关机（因为关机妨碍目标实现）。罗素指出，解法不是给AI加上"允许关机"的规则（这会被绕过），而是从根本上改变AI的目标结构——让AI的效用函数内在地依赖于人类的判断。在这个新架构下，被关机不再是"目标失败"的信号，而是"人类在纠正我"的信号——这正是一个学习中的智能体应该欢迎的事情。

来源

《人类兼容》第三章，关机问题

可迁移到

组织设计中"可中断性"的概念——一个健康的组织系统（项目、团队、流程）应该内置"被叫停不被视为失败"的机制；一个害怕被关掉的系统已经在某种程度上失控了。

来自这本书的解读报告

《人类兼容：人工智能与控制问题》

斯图尔特·罗素 (Stuart Russell) · 人工智能伦理 / AI安全

这本书回答了如何让智能机器保持可控的问题，它的答案是让机器对人类目标保持不确定并主动服从人类判断。

AI安全·价值对齐·控制问题·逆强化学习·人机协作

阅读完整解读报告 →

PRESS YOUR OWN BOOK

找一本想读的书，解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →