认知颠覆 · COGNITIVE OVERTURN
人类价值观的不可编码性不是技术限制,而是本质特征
很多AI对齐研究者的目标是"最终找到一种方法,把人类价值观完整地编码到AI中"。罗素论证了一个更深刻的结论:这不是一个"还没有找到"的方法,而是一个**根本不可能存在**的方法。人类价值观不是一组可以在某个时刻被完整写出的规则,而是一个不断演化、依赖语境、充满内在矛盾的动态过程。试图在某个时间点将其"冻结编码",本质上就是错误的工程路径。
来自这本书的解读报告
《人类兼容:人工智能与控制问题》
这本书回答了如何让智能机器保持可控的问题,它的答案是让机器对人类目标保持不确定并主动服从人类判断。
阅读完整解读报告 →