CH.01📚 书籍元信息
- 书名:《计算机视觉与深度学习》
- 作者:龙鹏举 等
- 类型:计算机科学 / 人工智能教科书
- 输入类型:仅书名(基于训练知识分析,标注信息边界)
- 一句话总结:这本书回答了如何用深度学习解决视觉感知问题,答案是通过层次化特征学习实现端到端的视觉任务
- 适读人群:计算机相关专业学生、从传统CV转型深度学习的工程师、想理解视觉AI底层逻辑的技术管理者
- 反适读人群:零编程基础且无意愿动手实践的学习者(本书偏理论+代码结合);只想调用API不关心原理的应用开发者
CH.02🔍 真问题
核心问题:传统计算机视觉依赖手工设计特征,每换一个任务就要重新设计特征提取器——如何让机器自动学会"看"?
旧答案:2012年之前,主流方法是「手工特征 + 浅层分类器」:
- 边缘检测:Canny算子
- 纹理特征:LBP(Local Binary Pattern)
- 局部特征:SIFT(尺度不变特征变换)、HOG(方向梯度直方图)
- 分类器:SVM、随机森林
这套流程的核心矛盾:特征工程的天花板决定了系统的上限,而人工设计的特征难以应对复杂场景的多样性。
新答案:深度学习通过「端到端层次化特征学习」:
- 不再手工设计特征,而是让网络从数据中自动学习
- 浅层学边缘/纹理,深层学语义/部件,形成「特征金字塔」
- 特征提取和任务目标联合优化,消除中间环节的信息损耗
答案的底层逻辑:
- 万能近似定理:足够深的网络可以逼近任意函数
- 数据驱动:大数据+GPU让训练深层网络变得可行
- 层次化归纳偏置:CNN的局部连接和权值共享天然适配图像的空间结构
关键边界:
- 需要大量标注数据(ImageNet的128万张图是里程碑)
- 训练成本高昂(ResNet-50单次训练需数天GPU时间)
- 分布偏移时泛化能力急剧下降(实验室训练≠真实世界部署)
- 不能处理真正的因果推理,只能做相关性统计
CH.03🗺️ 知识地图
(图说明:本书的知识结构从视觉基础出发,经由传统方法过渡到深度学习,最终覆盖三大核心视觉任务。)
CH.04💡 核心模型深度解析
模型一:卷积特征金字塔
模型定义 输入图像经过多层卷积核依次处理,浅层提取边缘/纹理等低级特征,深层提取语义/部件等高级特征,形成从具体到抽象的层级化表示。
(图说明:特征金字塔的核心是逐层抽象——从像素级细节到语义级概念。)
原书论证
- VGGNet实验:16层网络在ImageNet上将Top-5错误率从25.3%降至7.3%,验证了「更深=更强特征」
- 可视化研究:Zeiler和Fergus通过反卷积技术展示,AlexNet第一层学到Gabor滤波器,第二层学到纹理组合,第三层学到部件模式
迁移场景
- 医学影像诊断:用浅层特征识别X光片边缘(骨折线),用深层特征判断病理语义(肿瘤类型)
- 工业质检:浅层检测表面划痕,深层判断缺陷类别和严重程度
- 卫星图像分析:从像素级色彩变化到建筑物/道路等语义目标的逐层识别
失效边界
- 失效场景1:小目标检测——深层特征的空间分辨率太低,丢失小目标位置信息(需FPN解决)
- 失效场景2:纹理偏见——网络可能过度依赖纹理而非形状,导致「牛=草地背景」的虚假关联
- 反例:对抗样本仅改动几个像素就能让网络误分类,暴露了特征金字塔对局部扰动的脆弱性
改造方法
- 引入FPN(特征金字塔网络):将深层语义特征上采样与浅层特征融合,兼顾语义和位置
- 改造后:多尺度特征提取器,可同时处理大目标和小目标
行动接口(3套SOP)
🟢 小白版 SOP
- 触发条件:需要用CNN处理图像任务,但不确定网络应该多深
- 执行步骤:
- 从预训练模型(如ResNet-18)开始,冻结前面层只训练最后几层
- 用t-SNE可视化中间层特征,检查是否形成有效聚类
- 逐层解冻,观察验证集准确率变化
- 验证标准:中间层特征在t-SNE图中呈现清晰的类别聚类
- 回滚机制:如果加深反而过拟合,回退到更浅的网络或增加正则化
🟡 老手版 SOP
- 触发条件:需要设计自定义网络架构,平衡特征表达力和计算成本
- 执行步骤:
- 分析任务的尺度分布(目标大小变化范围)
- 设计多分支结构,不同分支处理不同尺度
- 用NAS(神经架构搜索)或手动消融实验确定最优深度
- 验证标准:在目标尺度变化大的数据集上,mAP提升≥2%且FLOPs增加≤30%
- 常见进阶陷阱:过度堆叠深度导致梯度消失,或忽略特征复用导致参数冗余
🔵 团队版 SOP
- 触发条件:团队要构建统一的视觉特征提取基座
- 角色×步骤矩阵:
- 算法负责人:确定基座架构和训练策略
- 数据工程师:准备多尺度、多场景的训练数据
- 后端工程师:部署推理服务,监控延迟和吞吐
- 验证标准:基座模型在内部benchmark上达到SOTA,且推理延迟满足SLA
- 回滚机制:如果新架构上线后性能下降,自动回退到上一版本
决策检查清单
- 任务中目标尺度变化大吗?→ 考虑多尺度特征融合
- 训练数据量是否足够支撑深层网络?→ 数据量不足则用迁移学习
- 推理延迟要求是多少?→ 延迟敏感则考虑轻量化架构
内容种子
- 文章选题:《为什么深度网络能自动学会"看"?从Gabor滤波器说起》
- 课程模块:《CNN特征可视化实验:亲手看看网络学到了什么》
- 咨询问题:《如何评估我们的视觉任务需要多深的网络?》
批判刃
前提批
- 隐含前提1:假设图像特征天然具有层次结构——某些抽象任务(如判断图片是否是PS的)可能不适用
- 隐含前提2:假设数据分布稳定——现实世界的数据分布持续变化,训练好的特征会过时
内部批
- 深层特征丢失了过多空间信息,对于需要精确定位的任务(如实例分割)不够用
- 特征金字塔是单向的(从浅到深),忽略了深层向浅层的信息反馈
适用范围批
- 有效边界:当输入数据是自然图像且任务依赖空间层次结构时最有效
- 执行成本:ResNet-152需要11.3 GFLOPs,对移动端部署不友好
- 隐藏代价:作者较少讨论大规模预训练的碳排放和算力门槛
模型二:端到端学习范式
模型定义 将特征提取、表示学习、任务预测整合为一个可微分的整体,通过单一损失函数的反向传播同时优化所有模块,消除手工设计中间环节。
(图说明:端到端学习用一个可微分管道取代了多个独立模块的拼接。)
原书论证
- 传统CV流程:图像→预处理→特征提取→降维→分类(每步独立优化)
- AlexNet/GoogLeNet证明:端到端训练的深度网络在ImageNet竞赛中碾压手工流程
- SegNet实验:语义分割中,端到端方法比「特征提取+CRF后处理」mIoU提升约8%
迁移场景
- 自动驾驶感知:原始摄像头输入→联合输出车道线、车辆、行人(多任务端到端)
- OCR系统:原始图片→直接输出识别文字,不再分离「检测→分割→识别」三阶段
- 语音识别:从MFCC特征设计到直接从波形学习,Wav2Vec实现了音频领域的端到端
失效边界
- 失效场景1:可解释性要求高的场景(如医疗诊断),端到端黑箱难以通过监管审批
- 失效场景2:数据极度稀缺时,端到端方法因参数多而严重过拟合
- 反例:Tesla早期自动驾驶团队发现,纯端到端在边缘场景(corner case)表现不如模块化方案
改造方法
- 引入中间监督信号:在网络中间层添加辅助损失,既保持端到端又增加可解释性
- 混合架构:用端到端网络做主干,但保留可解释的中间模块做安全校验
*行动接口(3套SOP)
🟢 小白版 SOP
- 触发条件:要把一个多阶段的视觉pipeline改为端到端
- 执行步骤:
- 先用独立模块跑通baseline,记录每步的中间输出和误差
- 将各模块拼接为一个网络,用一个总loss反向传播
- 对比端到端vs模块化的最终指标
- 验证标准:端到端指标不低于模块化baseline,且代码复杂度下降
- 回滚机制:如果端到端训练不稳定,引入辅助loss或分阶段预训练
🟡 老手版 SOP
- 触发条件:设计多任务端到端系统(如同时检测+分割+深度估计)
- 执行步骤:
- 分析各任务的loss量级和收敛速度差异
- 设计动态权重策略(如uncertainty weighting)
- 分析任务间是否存在梯度冲突(gradient conflict)
- 验证标准:多任务联合训练的各指标≥单任务训练的95%
- 常见进阶陷阱:主导任务梯度淹没辅助任务,导致辅助任务性能暴跌
🔵 团队版 SOP
- 触发条件:将传统CV pipeline迁移到深度学习平台
- 角色×步骤矩阵:
- 算法架构师:设计端到端网络结构
- 数据科学家:构建统一的多任务数据集
- 测试工程师:设计对比实验,验证端到端不退化
- 验证标准:端到端系统在A/B测试中胜出,且维护成本降低
- 回滚机制:保留模块化fallback路径,当端到端失败时可快速切换
决策检查清单
- 是否有足够数据支撑端到端训练?→ 数据不足则保留手工特征
- 监管/解释性要求高吗?→ 高则需要中间可解释模块
- 任务间梯度是否冲突?→ 冲突则考虑分阶段训练
内容种子
- 文章选题:《端到端学习的诱惑与陷阱:Tesla自动驾驶的教训》
- 课程模块:《动手改造:把传统图像处理pipeline变成端到端》
- 咨询问题:《我们公司的视觉系统应该全面端到端化吗?》
批判刃
前提批
- 隐含前提:认为中间步骤的"手工"都是冗余——但某些先验知识(如CRF的空间平滑约束)可能真的比网络学得更好
- 隐含前提:假设梯度可以有效传遍整个网络——深层网络的梯度消失问题让这个假设打折
内部批
- 端到端模型在训练集上表现好,但泛化到新分布时可能不如模块化系统(因为模块化可以针对单个模块做domain adaptation)
适用范围批
- 有效边界:数据充足、任务单一、对可解释性要求低
- 执行成本:调试困难——一个模块出问题,整个网络都要重训
- 隐藏代价:训练时间大幅增加,迭代速度变慢
模型三:迁移学习范式
模型定义 在大规模数据集(如ImageNet)上预训练模型获取通用视觉特征,再在目标任务的小数据集上微调,用少量标注数据实现高性能。
(图说明:迁移学习的核心是「先在大任务上学通用知识,再迁移到小任务」。)
原书论证
- VGGNet在ImageNet预训练后,迁移到PASCAL VOC检测任务,只需微调最后全连接层即可达到竞赛级性能
- 实验数据:用10%的ImageNet数据微调vs从头训练,前者准确率高15-20个百分点
- 医学影像研究:用ImageNet预训练模型迁移到X光片分类,即使医学数据只有1000张,也能达到85%+准确率
迁移场景
- 工业质检:用预训练ResNet提取特征,仅需100张缺陷图片即可训练分类器
- 农业病虫害识别:用预训练模型迁移到特定作物病害,解决标注专家稀缺问题
- 小语种OCR:用英文OCR预训练权重迁移到小语种文字识别
失效边界
- 失效场景1:源域与目标域差异过大(如ImageNet预训练迁移到CT图像),特征不匹配
- 夺效场景2:目标数据分布极端偏斜(如99%正常样本),微调仍会过拟合多数类
- 反例:有研究发现,在某些细粒度分类任务上,从头训练反而优于迁移学习(预训练特征过于通用,丢失了细粒度区分性)
改造方法
- 领域自适应预训练:用目标领域的无标注数据继续预训练(如医学影像专用预训练)
- 逐步解冻策略:先训练新分类头→解冻最后几层→全网络微调
行动接口(3套SOP)
🟢 小白版 SOP
- 触发条件:手头有少量标注图像(<1000张),需要完成分类任务
- 执行步骤:
- 下载预训练的ResNet-18(torchvision提供)
- 替换最后全连接层为你的类别数
- 先冻结前面层,只训练新分类头(5-10个epoch)
- 解冻全部层,用小学习率微调(5-10个epoch)
- 验证标准:验证集准确率稳定上升,无过拟合迹象
- 回滚机制:如果微调导致过拟合,回退到只训练分类头的版本
🟡 老手版 SOP
- 触发条件:源域和目标域差异较大,需要更精细的迁移策略
- 执行步骤:
- 评估源域与目标域的特征分布差异(用MMD或对抗判别器)
- 设计领域自适应层(如DANN)
- 使用渐进式解冻+学习率warmup
- 验证标准:目标域性能≥源域直接迁移的110%
- 常见进阶陷阱:灾难性遗忘——微调后模型在源域任务上性能暴跌
🔵 团队版 SOP
- 触发条件:公司有多个视觉项目需要共享基础模型
- 角色×步骤矩阵:
- AI架构师:维护统一的预训练模型库
- 各项目算法工程师:从模型库选择基座,做项目级微调
- MLOps工程师:管理模型版本,支持快速部署
- 验证标准:新项目从选型到达到baseline的时间≤1周
- 回滚机制:每个微调模型保留基座版本的完整快照
决策检查清单
- 目标域数据量足够吗?<100张→冻结特征层;100-1000张→微调高层;>1000张→可全网络微调
- 源域和目标域相似吗?→ 差异大则需要领域自适应
- 有计算资源持续维护预训练模型吗?→ 没有则用公开预训练权重
内容种子
- 文章选题:《迁移学习的边界:什么时候预训练模型不管用?》
- 课程模块:《30分钟用迁移学习搭建你的第一个图像分类器》
- 咨询问题:《我们的医学影像数据集该如何利用预训练模型?》
批判刃
前提批
- 隐含前提:源域学到的特征对目标域有用——当源域和目标域的"视觉语法"完全不同时,这个假设失效
- 隐含前提:深度特征是可迁移的——但某些高层语义特征(如ImageNet的1000类概念)可能对目标任务是噪声
内部批
- 迁移学习的效果高度依赖于源域和目标域的相似性,但这个相似性难以预先量化
- "微调"和"灾难性遗忘"之间存在张力,没有完美的平衡点
适用范围批
- 有效边界:源域与目标域存在共享的底层视觉模式
- 执行成本:需要维护预训练模型和微调pipeline的基础设施
- 隐藏代价:对公开预训练权重的依赖可能引入隐性偏见
模型四:数据增强与正则化体系
模型定义 通过对训练数据进行语义保持的变换(翻转、裁剪、颜色扰动等)扩充样本多样性,配合Dropout、权重衰减等正则化技术,抑制深度网络的过拟合倾向。
(图说明:数据增强和正则化是深度学习抗过拟合的双保险。)
原书论证
- AlexNet实验:随机裁剪+水平翻转将Top-5错误率降低3.8%
- ResNet实验:ImageNet训练使用RandomSizing+RandomCrop+ColorJitter,是达到SOTA的关键
- Dropout实验:在全连接层后加Dropout(p=0.5),测试误差降低约1-2%
迁移场景
- 小样本工业质检:通过旋转、缩放、弹性变形,将100张缺陷图扩充到10000张
- 医疗影像训练:通过CutMix、MixUp生成新样本,缓解病灶样本稀缺
- 夜间/恶劣天气驾驶数据:通过颜色扰动模拟不同光照条件
失效边界
- 失效场景1:语义敏感任务——水平翻转可能改变语义(如字母"b"翻转后变成"d")
- 失效场景2:增强过度——过度增强会引入噪声样本,损害训练
- 反例:AutoAugment发现,最优增强策略因数据集而异,没有通用最优配置
改造方法
- 神经网络搜索增强策略(AutoAugment、RandAugment)
- 基于生成模型的增强:用GAN/Diffusion Model生成更真实的训练样本
行动接口(3套SOP)
🟢 小白版 SOP
- 触发条件:训练集<1000张,或验证集loss远低于训练集loss(过拟合)
- 执行步骤:
- 添加基本增强:RandomHorizontalFlip + RandomCrop
- 如果仍过拟合,增加RandomRotation和ColorJitter
- 在全连接层间加Dropout(p=0.5)
- 验证标准:训练集和验证集loss差距缩小到10%以内
- 回滚机制:如果增强后性能下降,减少增强强度或回退到无增强
🟡 老手版 SOP
- 触发条件:需要在标准增强基础上进一步提升泛化
- 执行步骤:
- 用RandAugment自动搜索增强策略
- 尝试MixUp/CutMix等混合增强
- 配合Label Smoothing减少过自信预测
- 验证标准:在域外数据(OOD)上的性能提升≥3%
- 常见进阶陷阱:验证增强效果时必须保证增强只用于训练集,不能泄露到验证集
🔵 团队版 SOP
- 触发条件:多个项目共享数据增强pipeline
- 角色×步骤矩阵:
- 算法负责人:定义项目级增强策略
- 数据工程师:实现并测试增强函数
- 训练工程师:监控增强对训练稳定性的影响
- 验证标准:增强策略文档化,新成员可在1天内复现
- 回滚机制:保留无增强的baseline模型,增强失败时快速切换
决策检查清单
- 任务对几何变换敏感吗?→ 敏感(如OCR)则慎用旋转/翻转
- 数据集已经足够大吗?→ 大数据集增强收益递减
- 验证集设置正确吗?→ 确保增强不泄漏到验证集
内容种子
- 文章选题:《数据增强的科学:哪些操作真的有效?》
- 课程模块:《动手实验:可视化不同增强策略的效果》
- 咨询问题:《我们的训练数据太少,数据增强能救场吗?》
批判刃
前提批
- 隐含前提:认为语义保持的变换可以生成有效新样本——但分布内增强无法覆盖分布外的真实场景
- 隐含前提:认为过拟合是主要敌人——在数据足够大时,欠拟合可能是更严重的问题
内部批
- 数据增强的效果难以理论预测,目前主要靠实验调参
- MixUp/CutMix可能生成不自然的混合样本,损害模型对清晰样本的判断
适用范围批
- 有效边界:当训练数据的多样性不足但分布内覆盖尚可时
- 执行成本:每次实验需要测试多种增强组合,计算成本翻倍
- 隐藏代价:过度依赖增强可能掩盖数据标注质量问题
CH.05🧠 费曼检验
情境问题
情境:你是某医院AI团队的算法工程师,院长要求你用3个月时间开发一个"肺结节CT筛查系统"。你们只有500张标注CT图像(专家标注成本极高),但希望系统能达到三甲医院影像科医生的水平。院方还要求系统能解释"为什么认为这个区域是结节"。请基于本书知识,设计一个可行的技术方案。
参考解法框架:
- 用迁移学习范式:选择在医学影像(如MIMIC-CXR)或自然图像上预训练的模型作为基座
- 用卷积特征金字塔原理设计检测网络,浅层提取纹理,深层判断结节
- 用数据增强(弹性变形、随机裁剪)扩充500张训练数据
- 用Grad-CAM等可视化方法提供可解释性
好的回答应包含:数据不足的解决方案、迁移学习的具体选型、可解释性技术选型、3个月时间线的分阶段计划
5个常见误解
误解:网络越深性能一定越好 澄清:超过任务所需的深度会导致过拟合和训练困难。ResNet论文已证明152层不一定比56层好,关键是最优深度与数据量、任务复杂度匹配。
误解:端到端学习意味着完全不需要领域知识 澄清:端到端只是让网络自动学习特征,但数据预处理、损失函数设计、评估指标选择仍需领域专家参与。
误解:预训练模型可以直接用,不需要微调 澄清:直接用(zero-shot)通常效果有限,哪怕只微调分类头也能带来显著提升。
误解:数据增强越多越好 澄清:过度增强可能引入噪声样本,甚至破坏语义。最优增强策略需要实验验证。
误解:深度学习可以完全取代传统计算机视觉方法 澄清:在数据稀缺、需要严格可解释性、边缘设备算力受限的场景,传统方法或混合方法可能更优。
12岁孩子版
第一:这本书教计算机怎么"看"图片——不只是存储像素,而是理解图片里有什么。
第二:以前科学家要手写很多规则告诉电脑什么是猫什么是狗,但规则永远写不完。
第三:现在让电脑自己从几百万张图片里学习,它会自己发现"有尖耳朵的可能是猫"这种规律。
第四:你可以用这个方法让电脑认出照片里的花、检查产品有没有瑕疵、甚至帮医生看CT。
第五:但电脑学的只是统计规律,不是真正"理解"——有时候它会犯很蠢的错误,比如把熊猫认成长臂猿。
CH.06📝 全书评估
真正解决了什么问题? 系统性地建立了从传统CV到深度学习CV的知识桥梁,回答了"如何用深度网络解决视觉感知任务"的核心问题。对CNN、检测、分割等主流任务有完整覆盖。
核心模型原创性如何? 作为教材,原创性有限——核心模型(CNN、迁移学习、数据增强)来自各领域经典论文。本书的价值在于整合和教学,而非提出新理论。
证据质量如何? 论证主要依赖ImageNet竞赛结果、各任务SOTA论文数据、可控消融实验。证据链完整,但部分案例较老旧(2015-2018年为主),未充分覆盖Transformer时代的进展。
最大盲区是什么?
- 对ViT(Vision Transformer)及其变体覆盖不足
- 缺乏对视觉大模型(CLIP、SAM等)的讨论
- 对伦理问题(偏见、隐私)着墨较少
- 部署工程实践(模型压缩、推理优化)不够深入
书籍坐标:在"计算机视觉教材"谱系中,本书属于中级入门位置——比CS231n笔记更系统,比《深度学习》(花书)更聚焦视觉任务,但不如《计算机视觉:算法与应用》(Szeliski)全面,也不如最新论文集前沿。
CH.07🔗 跨书关联
与《深度学习》(花书,Goodfellow等)的关联
- 共振点:两本书在反向传播、优化算法、正则化原理上高度一致。花书提供了更扎实的理论基础。
- 冲突点:花书强调通用深度学习原理,本书聚焦视觉任务。如果先读花书再读本书,会觉得本书理论深度不足;如果先读本书再读花书,会觉得花书不够"落地"。
- 为什么接着读:读完本书理解了视觉应用后,读花书可以补齐概率图模型、生成模型等本书未深入的内容。
与《计算机视觉:算法与应用》(Szeliski)的关联
- 共振点:两本书都系统覆盖了计算机视觉全领域。Szeliski对几何视觉(三维重建、SLAM)的覆盖是本书的有力补充。
- 冲突点:Szeliski更偏传统CV方法和几何原理,本书偏深度学习。在"CV该走几何路线还是学习路线"这个问题上,两本书各有侧重。
- 为什么接着读:如果想理解自动驾驶中的定位和建图(SLAM),Szeliski是必读;本书提供了感知部分的基础。
与《动手学深度学习》(李沐等)的关联
- 共振点:两本书都是中文深度学习教材,都强调理论+代码结合。《动手学》的Jupyter notebook形式更适合自学者。
- 冲突点:本书更偏教科书体例,《动手学》更偏工程实践。如果目标是快速上手项目,《动手学》可能更合适。
- 为什么接着读:《动手学》提供了本书缺失的PyTorch实战代码,适合互补学习。
知识网络位置
- 上游(先读):《深度学习》(花书)— 提供数学基础;《Python编程》— 提供工具基础
- 下游(再读):《计算机视觉:算法与应用》— 几何视觉补充;《动手学深度学习》— 工程实践
- 对照读:《统计学习方法》(李航)— 理解传统机器学习与深度学习的关系
CH.08✨ 深度洞察摘录
[深度网络的本质是"可学习的特征金字塔"]
- 来源:卷积特征金字塔模型
- 类型:认知颠覆
- 核心内容:深度网络之所以有效,不是因为"参数多",而是因为它的层级结构天然契合视觉信息的层次性——边缘组合成纹理,纹理组合成部件,部件组合成物体。这个洞察可以迁移到任何具有层次结构的信号处理任务。
- 可迁移到:自然语言处理(词→短语→句子→段落的层次)、语音识别(音素→音节→词→句子)
[端到端的代价是"调试地狱"]
- 来源:端到端学习范式
- 类型:可迁移模型
- 核心内容:端到端学习消除了手工中间环节,但同时消除了"中间检查点"。当系统出错时,你无法判断是特征提取错了还是分类器错了——整个网络是一个不可分割的黑箱。这是工程落地时的重大挑战。
- 可迁移到:任何复杂系统的架构设计决策——模块化vs一体化的权衡
[迁移学习的前提是"共享底层语法"]
- 来源:迁移学习范式
- 类型:金句级表达
- 核心内容:迁移学习不是万能的,它成立的前提是源域和目标域共享某种"底层语法"(如边缘、纹理等低级特征)。当两种视觉任务的底层模式差异太大时(如医学图像vs自然图像),直接迁移反而有害。
- 可迁移到:跨领域知识迁移的决策——判断"哪些经验可以迁移,哪些不能"
[数据增强的本质是"编码先验知识"]
- 来源:数据增强与正则化体系
- 类型:跨书共振
- 核心内容:数据增强不是简单的"数据扩充",而是将领域专家的知识编码进训练过程——"这个任务中水平翻转是安全的"就是一条专家知识。这与贝叶斯先验的思路一致:用领域知识约束模型的学习空间。
- 可迁移到:任何需要引入领域知识的机器学习项目——先验知识不只能通过模型结构引入,也能通过数据增强引入
[深度学习的瓶颈正在从"算法"转向"数据"和"部署"]
- 来源:全书综合洞察
- 类型:认知颠覆
- 核心内容:2012-2018年,CV领域的主要突破来自算法创新(更深的网络、更好的架构)。但近年来,算法创新的边际收益递减,真正的瓶颈变成了:高质量标注数据的获取成本、模型在真实世界的部署效率、以及对分布外数据的鲁棒性。
- 可迁移到:技术路线规划——判断投入应该放在算法研发还是数据建设还是工程优化