跨书共振 · CROSS-BOOK RESONANCE
优化算法的“工程化”与“理论化”存在天然张力
理论上,二阶优化(利用曲率信息)收敛更快。但实践中,计算和存储海森矩阵代价过高,因此出现了大量二阶近似方法(如K-FAC)。这体现了**理论最优性**与**工程可实现性**之间的永恒张力。书中展现了如何通过巧妙的近似(如用对角矩阵近似、用动量累积近似曲率)来弥合这种张力。
来自这本书的解读报告
《深度学习优化》
这本书回答了如何为深度神经网络这一复杂系统找到高效训练方法的问题,其答案是构建一套以梯度为核心、融合多种技巧的优化算法工具箱。
阅读完整解读报告 →