跨书共振 · CROSS-BOOK RESONANCE

"不预处理"有时是最优预处理

不是所有模型都需要归一化(树模型不需要)、不是所有缺失值都需要填充(有些算法可以直接处理)、不是所有异常值都需要处理(可能包含重要信息)。预处理的目标不是"让数据好看",而是"让数据适配模型"——没有普适的预处理方案。
来源

《数据挖掘:实用机器学习工具与技术》第3章、第14章

可迁移到

工程化场景——在设计数据管道时,避免"过度工程化",让每个预处理步骤都有明确的理由。 --- *(全文完。本报告基于训练知识分析,部分具体案例和数据为基于书籍内容的合理推断,已尽量标注。建议读者结合原书第4版进一步验证。)*

来自这本书的解读报告

《数据挖掘:实用机器学习工具与技术》

Ian H. Witten, Eibe Frank, Mark A. Hall · 数据挖掘 / 机器学习

这本书回答了非专家如何用结构化流程做数据挖掘的问题,答案是CRISP-DM方法论+工具化执行。

数据挖掘·机器学习·CRISP-DM·特征工程·模型评估
阅读完整解读报告 →
PRESS YOUR OWN BOOK

找一本想读的书,解读出你自己的洞察

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP

解读一本书 →