认知颠覆 · COGNITIVE OVERTURN
优化噪声是特性而非缺陷
SGD 的梯度噪声传统上被视为需要消除的干扰项,但在深度学习中,适量噪声反而帮助模型逃离鞍点并获得更好的泛化性能。噪声本质上是一种隐式正则化——它限制了模型能探索的解空间区域,倾向于找到「平坦」的极小值(flat minima),而平坦极小值通常对应更好的泛化。
来自这本书的解读报告
《机器学习中的优化》
这本书回答了如何在高维非凸空间中高效找到模型最优参数的问题,答案是通过梯度信息驱动的迭代搜索并结合问题结构设计算法。
阅读完整解读报告 →