金句级表达 · PITHY EXPRESSION

对齐不是价值观的植入，而是行为模式的模仿

RLHF让模型学会了"什么样的回答人类觉得好"的模式，但这不等于模型"理解了什么是好的"。就像一个演员可以完美扮演一个善良的角色但本身并不善良——行为的相似性和本质的等同性是两回事。这是当前AI对齐研究最深层的困境。

《这就是ChatGPT》关于RLHF的讨论

企业文化和价值观落地——很多企业试图通过"培训"来植入价值观，但如果培训只改变了员工的行为模式而非深层动机，就可能遇到同样的"对齐税"——表面合规、内在偏离。

这本书回答了ChatGPT为何能看似理解人类语言的问题，其答案是：它本质上只做预测下一个词，但这种简单机制在海量数据上产生了理解的涌现。

PRESS YOUR OWN BOOK

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP