认知颠覆 · COGNITIVE OVERTURN
你对齐到的可能不是"人类价值",而是"反馈者的偏见"
逆向强化学习假设人类行为能"诚实地"反映内在价值观,但行为受约束条件(经济压力、信息不对称、社会权力结构)的严重扭曲。当RLHF(基于人类反馈的强化学习)对齐到标注员的即时偏好时,我们实际上是在对齐到"一群在特定时间、特定工作条件下的特定人群的选择"——这和"人类价值"之间的距离,可能比我们想象的远得多。
来自这本书的解读报告
《对齐问题:机器设计与人类价值》
这本书回答了如何让AI做人类真正想做的事,答案是对齐是一个多层持续治理工程而非一次性设定
阅读完整解读报告 →