跨书共振 · CROSS-BOOK RESONANCE

预训练即压缩:语言模型是世界知识的有损压缩

语言模型在预测下一个词的过程中,被迫将训练数据中的事实知识、推理模式、甚至常识编码到参数中——模型本质上是对训练数据的有损压缩。这个视角解释了为什么大模型会「幻觉」(输出错误事实):压缩必然损失信息,当查询落在压缩的「模糊区域」时,模型只能生成看似合理但实际错误的内容。这与信息论中率失真理论(Rate-Distortion Theory)形成共振——任何有限容量的系统都不可能完美保存所有信息。
来源

预训练-微调范式 / 语言模型理论

可迁移到

理解知识管理系统中信息丢失的必然性;理解人类记忆的建构性本质(人脑也是有损压缩);设计容错系统时预留冗余。

来自这本书的解读报告

《自然语言处理与深度学习》

Christopher Manning 等(斯坦福 CS224N 课程体系) · 自然语言处理 / 深度学习

这本书回答了机器如何理解人类语言的问题,答案是从符号表示走向分布式表示,用深度网络从海量文本中自监督学习语言结构

NLP·深度学习·词向量·注意力机制·Transformer
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →