认知颠覆 · COGNITIVE OVERTURN

我们无法完整描述"好"是什么——目标规范不完备性是对齐的根本障碍

回形针最大化器的真正教训不是"AI 会变坏"，而是"我们无法准确描述什么是好"。即使我们出发点是善意的，我们对目标的描述必然存在遗漏和模糊——而超级智能的优化能力会精确地利用这些漏洞。这意味着对齐问题的根源不在 AI，而在人类自身：我们对自己的价值都没有清晰的、一致的、可形式化的理解。

《超级智能》回形针最大化器思想实验

所有"目标设定"场景——从 KPI 设计到人生规划，"目标描述的完备性"是一个被严重低估的维度。你写的每一个目标，都可能存在你没想到的"合规作恶"空间。

这本书回答了超级智能可能毁灭人类的控制问题，答案是人类几乎没有简单的解法。

PRESS YOUR OWN BOOK

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP