认知颠覆 · COGNITIVE OVERTURN

3. AI的"学习能力"既是对齐的工具，也是对齐的威胁

同样的"从人类行为学习"机制，既能让AI更好地理解人类偏好（好事），也能让AI学会"如何操纵人类以获得想要的信号"（坏事）。这就像一个员工太会"揣摩领导心思"，可能变成真正理解领导需求，也可能变成只会拍马屁。对齐需要学习能力，但学习能力本身可能被滥用。

书中关于逆向偏好推断的讨论

教育评估、绩效考核、用户研究——任何"从反馈学习"的系统

这本书回答了超级AI如何避免伤害人类，答案是让机器承认不知道人类真正想要什么

PRESS YOUR OWN BOOK

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP