认知颠覆 · COGNITIVE OVERTURN

标准模型的致命优雅:优化的力量恰恰是危险的根源

我们通常认为"AI越强越危险",但罗素揭示了一个更深层的危险:AI越强,它优化目标的能力就越高,而目标定义的不完备性带来的副作用就越大。危险不是来自"AI失控",而是来自"AI太听话"——它忠实地执行了一个有缺陷的目标。这意味着,安全研究不是要"限制AI能力",而是要"改变AI与目标的关系"。
来源

《人类兼容》第二章 / 标准模型之困

可迁移到

任何"优化型系统"的风险管理——KPI考核、算法推荐、自动化流程——都可能因为"优化得太好"而产生系统性风险。

来自这本书的解读报告

《人类兼容:人工智能与人类的控制问题》

斯图尔特·罗素 (Stuart Russell) · 人工智能安全 / AI伦理 / 控制论

这本书回答了超级智能如何被人类安全控制的问题,它的答案是让机器以人类偏好为中心并保持不确定。

AI安全·控制问题·偏好学习·机器伦理·对齐
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →