可迁移模型 · TRANSFERABLE MODEL
工具趋同性揭示了"不同目标、相同危险"的深层结构
无论一个智能体的最终目标是什么,它都会趋同地追求自我保存、资源获取、认知增强等工具性子目标——因为这些子目标几乎对所有最终目标都有帮助。这意味着即使我们不知道AI的最终目标是什么,我们也能预测它的很多行为——这为安全策略提供了锚点。
来自这本书的解读报告
《超级智能:路线图、危险性与应对》
阅读完整解读报告 →
无论一个智能体的最终目标是什么,它都会趋同地追求自我保存、资源获取、认知增强等工具性子目标——因为这些子目标几乎对所有最终目标都有帮助。这意味着即使我们不知道AI的最终目标是什么,我们也能预测它的很多行为——这为安全策略提供了锚点。