跨书共振 · CROSS-BOOK RESONANCE

预训练即压缩：语言模型是世界知识的有损压缩

语言模型在预测下一个词的过程中，被迫将训练数据中的事实知识、推理模式、甚至常识编码到参数中——模型本质上是对训练数据的有损压缩。这个视角解释了为什么大模型会「幻觉」（输出错误事实）：压缩必然损失信息，当查询落在压缩的「模糊区域」时，模型只能生成看似合理但实际错误的内容。这与信息论中率失真理论（Rate-Distortion Theory）形成共振——任何有限容量的系统都不可能完美保存所有信息。

来源

预训练-微调范式 / 语言模型理论

可迁移到

理解知识管理系统中信息丢失的必然性；理解人类记忆的建构性本质（人脑也是有损压缩）；设计容错系统时预留冗余。

来自这本书的解读报告

《自然语言处理与深度学习》

Christopher Manning 等（斯坦福 CS224N 课程体系） · 自然语言处理 / 深度学习

这本书回答了机器如何理解人类语言的问题，答案是从符号表示走向分布式表示，用深度网络从海量文本中自监督学习语言结构

NLP·深度学习·词向量·注意力机制·Transformer

阅读完整解读报告 →

PRESS YOUR OWN BOOK

找一本想读的书，解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →