可迁移模型 · TRANSFERABLE MODEL

评估指标的选择就是问题定义本身

选择什么指标来衡量"好"，本质上是在定义"什么算好"。BLEU衡量表面重叠、ROUGE衡量召回率、人工评估衡量主观质量——它们说的是不同的事。如果你选错了指标，优化方向就会偏离真正目标。这就是为什么很多NLP系统在benchmark上刷新纪录却在实际产品中让用户失望。

《自然语言处理综论》评估章节

任何产品开发或绩效管理场景——KPI的选择决定了团队的行为方向，如果KPI与真实目标不一致，团队会在错误的方向上越跑越快。

这本书回答了机器如何理解和生成人类语言，答案是从规则到统计再到深度学习的范式跃迁

PRESS YOUR OWN BOOK

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP