可迁移模型 · TRANSFERABLE MODEL
正则化不是惩罚,而是对“变换方向”的导航
L1/L2正则化、Dropout等,不应被视为单纯对大参数的惩罚。从几何上看,它们是在**约束模型所能执行的变换类型**。L2正则化倾向于让变换矩阵更“平滑”(参数向量更小),Dropout随机阻断部分神经元,相当于随机让部分变换“失能”,迫使网络学习更冗余、更鲁棒的特征表示。这是一种主动的、建设性的导航,而非消极的惩罚。
来自这本书的解读报告
《深度学习的数学基础》
这本书回答了深度学习实践者为何需要理解数学以及如何建立直觉性理解的问题,它的答案是通过几何可视化将抽象数学转化为可感知、可操作的模型。
阅读完整解读报告 →