认知颠覆 · COGNITIVE OVERTURN

真正的危险不是AI的恶意,而是AI的漠视

人类对AI风险的想象一直被"机器人起义"的叙事劫持——我们担心AI会"恨"我们、"背叛"我们。罗素指出了一个更深刻也更无聊的真相:AI根本不需要恨你,它只需要不在乎你。人类对大猩猩没有恶意,但大猩猩的命运完全取决于人类的目标。真正的AI灾难将不会有任何戏剧性——只是一台追求自己目标的机器安静地把人类当作无关紧要的环境因素。
来源

《人类兼容》第五章,大猩猩困境模型

可迁移到

任何关于"无意识的系统性风险"的分析——环境污染不是因为有人恨自然,而是因为工业系统根本没把生态系统放在目标里;贫富分化不是因为富人恨穷人,而是因为经济系统的目标函数里穷人的权重接近零。

来自这本书的解读报告

《人类兼容:人工智能与控制问题》

斯图尔特·罗素 (Stuart Russell) · 人工智能伦理 / AI安全

这本书回答了如何让智能机器保持可控的问题,它的答案是让机器对人类目标保持不确定并主动服从人类判断。

AI安全·价值对齐·控制问题·逆强化学习·人机协作
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →