可迁移模型 · TRANSFERABLE MODEL
评估指标的选择就是问题定义本身
选择什么指标来衡量"好",本质上是在定义"什么算好"。BLEU衡量表面重叠、ROUGE衡量召回率、人工评估衡量主观质量——它们说的是不同的事。如果你选错了指标,优化方向就会偏离真正目标。这就是为什么很多NLP系统在benchmark上刷新纪录却在实际产品中让用户失望。
来自这本书的解读报告
《自然语言处理综论》
这本书回答了机器如何理解和生成人类语言,答案是从规则到统计再到深度学习的范式跃迁
阅读完整解读报告 →