认知颠覆 · COGNITIVE OVERTURN

人类价值观的不可编码性不是技术限制，而是本质特征

很多AI对齐研究者的目标是"最终找到一种方法，把人类价值观完整地编码到AI中"。罗素论证了一个更深刻的结论：这不是一个"还没有找到"的方法，而是一个**根本不可能存在**的方法。人类价值观不是一组可以在某个时刻被完整写出的规则，而是一个不断演化、依赖语境、充满内在矛盾的动态过程。试图在某个时间点将其"冻结编码"，本质上就是错误的工程路径。

来源

《人类兼容》第二章，标准模型的分析

可迁移到

任何涉及"将隐性知识显性化"的努力——企业文化不能被写成一本手册（"文化手册"永远赶不上文化的演化）；用户需求不能被写成一份永久的需求文档（需求文档永远在追赶用户偏好的变化）。

来自这本书的解读报告

《人类兼容：人工智能与控制问题》

斯图尔特·罗素 (Stuart Russell) · 人工智能伦理 / AI安全

这本书回答了如何让智能机器保持可控的问题，它的答案是让机器对人类目标保持不确定并主动服从人类判断。

AI安全·价值对齐·控制问题·逆强化学习·人机协作

阅读完整解读报告 →

PRESS YOUR OWN BOOK

找一本想读的书，解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →