金句级表达 · PITHY EXPRESSION
对齐不是价值观的植入,而是行为模式的模仿
RLHF让模型学会了"什么样的回答人类觉得好"的模式,但这不等于模型"理解了什么是好的"。就像一个演员可以完美扮演一个善良的角色但本身并不善良——行为的相似性和本质的等同性是两回事。这是当前AI对齐研究最深层的困境。
来自这本书的解读报告
《这就是ChatGPT:深入解析其背后的原理》
这本书回答了ChatGPT为何能看似理解人类语言的问题,其答案是:它本质上只做预测下一个词,但这种简单机制在海量数据上产生了理解的涌现。
阅读完整解读报告 →