可迁移模型 · TRANSFERABLE MODEL
SGD的噪声是特性,不是Bug
SGD相比全批量梯度下降引入了噪声,但这噪声帮助算法逃离鞍点和局部极小,相当于隐式正则化+全局搜索能力。
来自这本书的解读报告
《深度学习》
这本书回答了「如何系统理解深度学习」的问题,它的答案是从数学基础、表示学习、优化理论三维度建立统一框架
阅读完整解读报告 →
SGD相比全批量梯度下降引入了噪声,但这噪声帮助算法逃离鞍点和局部极小,相当于隐式正则化+全局搜索能力。
这本书回答了「如何系统理解深度学习」的问题,它的答案是从数学基础、表示学习、优化理论三维度建立统一框架