跨书共振 · CROSS-BOOK RESONANCE
预训练即压缩:语言模型是世界知识的有损压缩
语言模型在预测下一个词的过程中,被迫将训练数据中的事实知识、推理模式、甚至常识编码到参数中——模型本质上是对训练数据的有损压缩。这个视角解释了为什么大模型会「幻觉」(输出错误事实):压缩必然损失信息,当查询落在压缩的「模糊区域」时,模型只能生成看似合理但实际错误的内容。这与信息论中率失真理论(Rate-Distortion Theory)形成共振——任何有限容量的系统都不可能完美保存所有信息。
来自这本书的解读报告
《自然语言处理与深度学习》
这本书回答了机器如何理解人类语言的问题,答案是从符号表示走向分布式表示,用深度网络从海量文本中自监督学习语言结构
阅读完整解读报告 →