认知颠覆 · COGNITIVE OVERTURN

标准模型的致命优雅：优化的力量恰恰是危险的根源

我们通常认为"AI越强越危险"，但罗素揭示了一个更深层的危险：AI越强，它优化目标的能力就越高，而目标定义的不完备性带来的副作用就越大。危险不是来自"AI失控"，而是来自"AI太听话"——它忠实地执行了一个有缺陷的目标。这意味着，安全研究不是要"限制AI能力"，而是要"改变AI与目标的关系"。

《人类兼容》第二章 / 标准模型之困

任何"优化型系统"的风险管理——KPI考核、算法推荐、自动化流程——都可能因为"优化得太好"而产生系统性风险。

这本书回答了超级智能如何被人类安全控制的问题，它的答案是让机器以人类偏好为中心并保持不确定。

PRESS YOUR OWN BOOK

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP