可迁移模型 · TRANSFERABLE MODEL
数据稀疏是统计语言模型的原罪
N-gram模型的指数级增长(V^N)意味着大部分可能的词组合在任何有限语料中都从未出现过。平滑技术的本质是"用没有见过的证据做预测"——这个困境在所有依赖数据的领域都存在(推荐系统、风控模型)。
来自这本书的解读报告
《语音与语言处理》
这本书回答了如何让机器理解人类语言的问题,系统整合了从语音到语义的完整技术栈
阅读完整解读报告 →
N-gram模型的指数级增长(V^N)意味着大部分可能的词组合在任何有限语料中都从未出现过。平滑技术的本质是"用没有见过的证据做预测"——这个困境在所有依赖数据的领域都存在(推荐系统、风控模型)。
这本书回答了如何让机器理解人类语言的问题,系统整合了从语音到语义的完整技术栈