金句级表达 · PITHY EXPRESSION
Transformer的成功本质上是"允许偷看答案"
RNN必须按顺序处理序列,每个位置只能依赖之前的信息;而Transformer的自注意力让每个位置可以直接"偷看"序列中的所有其他位置——包括它之后的位置。这种"作弊"在语言建模任务中是合法的(因为训练时用teacher forcing),但在生成任务中需要掩码。理解这一点就理解了Transformer为什么有效以及它的局限。
来自这本书的解读报告
《语音与语言处理》
这本书回答了如何让机器理解人类语言的问题,系统整合了从语音到语义的完整技术栈
阅读完整解读报告 →