跨书共振 · CROSS-BOOK RESONANCE

从N-gram到Transformer是"记忆窗口"的三次扩展

N-gram的记忆窗口是固定的N-1个词(通常≤5),RNN通过隐状态将窗口扩展为理论上无限但实际衰减的长度,Transformer通过自注意力将窗口扩展为全局但受计算限制。这三者本质上是同一个问题的不同近似——如何在"看到多少上下文"和"计算成本"之间找到平衡点。理解这一点,你就不会被Transformer的复杂表象迷惑,而是能看到它解决的根本问题。
来源

《自然语言处理综论》语言模型与注意力章节

可迁移到

任何"上下文窗口"思维的场景——决策时考虑多少历史信息?做研究时文献综述覆盖多宽的范围?做产品时用户画像需要多长时间的行为数据?这些都是同一类权衡。

来自这本书的解读报告

《自然语言处理综论》

Daniel Jurafsky, James H. Martin · 计算机科学·自然语言处理

这本书回答了机器如何理解和生成人类语言,答案是从规则到统计再到深度学习的范式跃迁

NLP·语言模型·深度学习·计算语言学·Transformer
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →