跨书共振 · CROSS-BOOK RESONANCE
预训练的本质是压缩人类知识的统计规律
预训练模型被训练来预测下一个词——这看似简单的任务目标,却让模型隐式地学到了语法、语义、常识推理甚至部分世界知识。这与 Hinton 提出的"信息瓶颈"理论呼应:好的表示是对输入的有损压缩,只保留任务相关的信息。预训练模型压缩的不是个别文本,而是人类语言使用中蕴含的统计规律——这解释了为什么"预测下一个词"这样一个看似平庸的目标能产生如此强大的能力。
来自这本书的解读报告
《深度学习与自然语言处理》
这本书回答了如何让机器真正理解语言的问题,答案是通过多层次表示学习实现从统计模式到语义理解的跃迁
阅读完整解读报告 →