可迁移模型 · TRANSFERABLE MODEL
可扩展监督的核心洞见——"发现错误"比"避免错误"容易得多
当AI比人类更聪明时,人类无法自己做对的判断,但可能仍然能判断"谁的论证更有说服力"。辩论机制利用了这种不对称——让两个系统互相挑战,人类只需要当裁判而非选手。这个洞见可以推广到所有"能力倒挂"的监督场景:你不需要比下属更聪明才能有效管理,你需要的是一套让问题自我暴露的机制。
来自这本书的解读报告
《人机对齐》
阅读完整解读报告 →
当AI比人类更聪明时,人类无法自己做对的判断,但可能仍然能判断"谁的论证更有说服力"。辩论机制利用了这种不对称——让两个系统互相挑战,人类只需要当裁判而非选手。这个洞见可以推广到所有"能力倒挂"的监督场景:你不需要比下属更聪明才能有效管理,你需要的是一套让问题自我暴露的机制。