可迁移模型 · TRANSFERABLE MODEL

SGD的噪声是特性,不是Bug

SGD相比全批量梯度下降引入了噪声,但这噪声帮助算法逃离鞍点和局部极小,相当于隐式正则化+全局搜索能力。
来源

《深度学习》第8章 / 随机梯度下降

可迁移到

优化策略选择——在复杂非凸问题中,不必追求精确梯度;在元学习、强化学习中主动引入噪声提升探索。

来自这本书的解读报告

《深度学习》

Ian Goodfellow, Yoshua Bengio, Aaron Courville · 人工智能 / 机器学习 / 认知科学

这本书回答了「如何系统理解深度学习」的问题,它的答案是从数学基础、表示学习、优化理论三维度建立统一框架

深度学习·神经网络·表示学习·优化·人工智能
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →