可迁移模型 · TRANSFERABLE MODEL
稀疏是统计建模的永恒敌人
n-gram模型面临的稀疏问题揭示了一个深层困境——**观察空间的组合爆炸远超任何有限数据能覆盖的范围**。平滑技术的本质不是"补数据",而是做出合理的"借力"推断——从未见组合推断其概率。这一思想在所有有限样本推断场景中通用:客户只买了你的部分产品,你要推断他们对你全线产品的偏好;你只观察了部分市场的表现,你要推断全局趋势。
来自这本书的解读报告
《Foundations of Statistical Natural Language Processing》
这本书回答了如何用概率和统计方法让机器理解语言的问题,答案是将语言现象建模为随机过程并通过数据驱动推断。
阅读完整解读报告 →