跨书共振 · CROSS-BOOK RESONANCE

"不预处理"有时是最优预处理

不是所有模型都需要归一化（树模型不需要）、不是所有缺失值都需要填充（有些算法可以直接处理）、不是所有异常值都需要处理（可能包含重要信息）。预处理的目标不是"让数据好看"，而是"让数据适配模型"——没有普适的预处理方案。

《数据挖掘：实用机器学习工具与技术》第3章、第14章

工程化场景——在设计数据管道时，避免"过度工程化"，让每个预处理步骤都有明确的理由。 --- *（全文完。本报告基于训练知识分析，部分具体案例和数据为基于书籍内容的合理推断，已尽量标注。建议读者结合原书第4版进一步验证。）*

这本书回答了非专家如何用结构化流程做数据挖掘的问题，答案是CRISP-DM方法论+工具化执行。

PRESS YOUR OWN BOOK

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP