认知颠覆 · COGNITIVE OVERTURN
学习算法本身是被忽略的正则化来源
传统的正则化理解集中在"显式惩罚"(L1/L2正则化、dropout)。但花书揭示了一个深层洞察:**优化算法本身就是正则化**——SGD的随机噪声天然地偏好平坦极小值(对应更好的泛化),小批量比全批量泛化更好不是因为"更快",而是因为噪声更大、正则化更强;提前停止不是"偷懒",而是等价于L2正则化。这意味着选择优化器不只是选"多快收敛",而是选"什么样的解"。
来自这本书的解读报告
《Deep Learning(深度学习》
这本书回答了深度学习凭何成立的问题,答案是用概率框架统一表征学习的核心原理
阅读完整解读报告 →