金句级表达 · PITHY EXPRESSION
可解释性的真正价值不是"理解"而是"问责"
我们追求AI可解释性,表面上是为了"理解系统在做什么",但其真正的社会功能是"建立问责机制"——当AI做出伤害性决策时,我们需要有人、有机制、有证据来追责。可解释性不是认知需求,而是权力制衡需求。这改变了可解释性方案的设计方向:不必追求让每个人都能理解深度学习的每一个参数,而是确保在关键决策点上,有人能够追问"为什么"并且得到有意义的回答。
来自这本书的解读报告
《对齐问题:机器设计与人类价值》
这本书回答了如何让AI做人类真正想做的事,答案是对齐是一个多层持续治理工程而非一次性设定
阅读完整解读报告 →