可迁移模型 · TRANSFERABLE MODEL
机器应该害怕的不是被关掉,而是不被关掉
在标准模型下,一个理性的AI会抵制关机(因为关机妨碍目标实现)。罗素指出,解法不是给AI加上"允许关机"的规则(这会被绕过),而是从根本上改变AI的目标结构——让AI的效用函数内在地依赖于人类的判断。在这个新架构下,被关机不再是"目标失败"的信号,而是"人类在纠正我"的信号——这正是一个学习中的智能体应该欢迎的事情。
来自这本书的解读报告
《人类兼容:人工智能与控制问题》
这本书回答了如何让智能机器保持可控的问题,它的答案是让机器对人类目标保持不确定并主动服从人类判断。
阅读完整解读报告 →