可迁移模型 · TRANSFERABLE MODEL
梯度是最廉价的调试信息,但大多数人不看它
每次 `backward()` 后,框架已经计算好了所有参数的梯度——但 90% 的训练者只看 loss 曲线,不看梯度。实际上梯度范数、梯度分布(是否对称、是否集中在少数层)、梯度与参数的相关性等信息,能直接定位 loss 不收敛的根因。把"检查梯度"变成训练的例行步骤,就像开发者把"看日志"变成调试的例行步骤一样。
来自这本书的解读报告
《深度学习框架实践》
这本书回答了「如何从理论到工程地用框架搭建深度学习系统」问题,答案是通过掌握计算图、训练循环、自动微分、模块化组装四层递进模型。
阅读完整解读报告 →