认知颠覆 · COGNITIVE OVERTURN
评估能力永远强于表达能力——这是对齐的希望所在
人类有一种不对称的能力——我们看到一个翻译结果就能判断好不好,但要写出"什么是好的翻译"的数学公式几乎不可能。这不是缺陷而是认知结构的特征。这个不对称性恰恰是逆强化学习和RLHF等方法得以成立的基础——虽然我们说不清自己要什么,但我们可以持续地识别和评估结果。对齐问题因此不是"无解"的,而是"需要换一种问法"的。
来自这本书的解读报告
《人机对齐》
阅读完整解读报告 →