金句级表达 · PITHY EXPRESSION

Transformer的成功本质上是"允许偷看答案"

RNN必须按顺序处理序列,每个位置只能依赖之前的信息;而Transformer的自注意力让每个位置可以直接"偷看"序列中的所有其他位置——包括它之后的位置。这种"作弊"在语言建模任务中是合法的(因为训练时用teacher forcing),但在生成任务中需要掩码。理解这一点就理解了Transformer为什么有效以及它的局限。
来源

《语音与语言处理》第10章Transformer部分

可迁移到

理解任何"双向"模型的适用场景——只能用于需要完整上下文的任务,不能用于真正需要在线预测的场景

来自这本书的解读报告

《语音与语言处理》

Daniel Jurafsky & James H. Martin · 自然语言处理 / 计算语言学

这本书回答了如何让机器理解人类语言的问题,系统整合了从语音到语义的完整技术栈

自然语言处理·语音识别·深度学习·语言模型
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →