可迁移模型 · TRANSFERABLE MODEL

梯度是最廉价的调试信息,但大多数人不看它

每次 `backward()` 后,框架已经计算好了所有参数的梯度——但 90% 的训练者只看 loss 曲线,不看梯度。实际上梯度范数、梯度分布(是否对称、是否集中在少数层)、梯度与参数的相关性等信息,能直接定位 loss 不收敛的根因。把"检查梯度"变成训练的例行步骤,就像开发者把"看日志"变成调试的例行步骤一样。
来源

自动微分机制与训练调试实践

可迁移到

任何涉及迭代优化的场景——梯度就是"优化方向的信号",监控信号质量是确保优化正确的前提。

来自这本书的解读报告

《深度学习框架实践》

多版本同名技术书 · 机器学习工程 / 深度学习实践

这本书回答了「如何从理论到工程地用框架搭建深度学习系统」问题,答案是通过掌握计算图、训练循环、自动微分、模块化组装四层递进模型。

深度学习·框架工程·PyTorch·TensorFlow·模型训练
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →