认知颠覆 · COGNITIVE OVERTURN

数据并行不是简单的"分而治之"

数据并行看似直觉上很简单——把数据切开、分给多台机器、最后合并。但实践中最大的坑不是"怎么切"，而是"怎么合"。同步聚合受限于最慢节点，异步聚合引入过时梯度，两者都有严重的工程陷阱。真正决定数据并行成败的是通信拓扑设计和聚合策略，而非分片本身。

《大规模机器学习》数据并行章节

跨团队协作项目中，"分工"容易做，但"整合"才是真正的瓶颈——就像数据并行中，分片简单但聚合困难。项目的管理重点应放在整合环节而非分工环节。

这本书回答了「传统ML算法在数据爆炸时代如何落地」的问题，核心答案是：在统计效率与计算效率之间寻找精巧平衡。

PRESS YOUR OWN BOOK

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP