金句级表达 · PITHY EXPRESSION

对齐不是价值观的植入,而是行为模式的模仿

RLHF让模型学会了"什么样的回答人类觉得好"的模式,但这不等于模型"理解了什么是好的"。就像一个演员可以完美扮演一个善良的角色但本身并不善良——行为的相似性和本质的等同性是两回事。这是当前AI对齐研究最深层的困境。
来源

《这就是ChatGPT》关于RLHF的讨论

可迁移到

企业文化和价值观落地——很多企业试图通过"培训"来植入价值观,但如果培训只改变了员工的行为模式而非深层动机,就可能遇到同样的"对齐税"——表面合规、内在偏离。

来自这本书的解读报告

《这就是ChatGPT:深入解析其背后的原理》

斯蒂芬·沃尔夫勒姆(Stephen Wolfram) · 人工智能·计算机科学·科普

这本书回答了ChatGPT为何能看似理解人类语言的问题,其答案是:它本质上只做预测下一个词,但这种简单机制在海量数据上产生了理解的涌现。

人工智能·大语言模型·计算原理·知识表示·人机对齐
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →