admin 管理员组

文章数量: 1086019

Good

吴军数学之美又看了一遍,写的有深有浅,比如这次,有不同的感觉。


统计预言模型的数据稀疏问题解决方案–古德图灵估计
接上
这里引入Good-turning估计
Good-turning的主要思想是从概率的总量中分配少量的比例给零概率项。
假定在语料库中出现 r 次数的词有Nr个,则有

N=∑r=1∞rNr
当 r 较小时,我们使用dr代替 r ,这里dr<r, dr 的值可由下式表示
dr=(r+1)Nr+1Nr
这样可以保证
N=∑rdrNr
这里我们考虑一个经验,一般来说 r 越大,词的数量Nr就越小,即验证了上述 dr<r 且 d0>0 .这样的代替可以让数据稀疏度有效的降低,所有词的概率估计会看起来很平滑。

本文标签: Good