跨书共振 · CROSS-BOOK RESONANCE
从N-gram到Transformer是"记忆窗口"的三次扩展
N-gram的记忆窗口是固定的N-1个词(通常≤5),RNN通过隐状态将窗口扩展为理论上无限但实际衰减的长度,Transformer通过自注意力将窗口扩展为全局但受计算限制。这三者本质上是同一个问题的不同近似——如何在"看到多少上下文"和"计算成本"之间找到平衡点。理解这一点,你就不会被Transformer的复杂表象迷惑,而是能看到它解决的根本问题。
来自这本书的解读报告
《自然语言处理综论》
这本书回答了机器如何理解和生成人类语言,答案是从规则到统计再到深度学习的范式跃迁
阅读完整解读报告 →