admin 管理员组

文章数量: 1086019


2024年4月15日发(作者:写php的编辑器)

相对熵 条件熵 交叉熵

相对熵,条件熵,交叉熵是信息论中的3个重要概念,它们在信

息量的度量和信息的表示上有着广泛的应用。

相对熵(KL散度)

相对熵,又称KL散度(Kullback–Leibler divergence)是两个

概率分布之间的差异度量。它衡量了两个分布之间的距离。我们把这

个距离叫做KL散度。

相对熵常用于机器学习中模型的参数优化,因为我们可以通过最

小化两个分布之间的KL散度来找到最优的模型参数。

对于两个概率分布P和Q,我们可以用如下的公式来计算它们之间

的相对熵:

KL(P || Q)= Σ i P(i) log(P(i) / Q(i))

其中,P(i)是第i个事件发生的概率,Q(i)是第i个事件被模拟

生成的概率。

条件熵

条件熵是指在给定一个条件下的熵。如果我们知道了一个事件的

条件,那么这个事件的熵就会发生变化。比如说,我们通过给定一个

体重的条件,来确定一个人的身高,那么这个身高的熵就会发生变化。

条件熵可以用下面这个公式来计算:

H(X | Y)= Σ y P(Y=y) H(X | Y=y)

其中,X是一个随机变量,Y是第二个随机变量,P(Y=y)是Y发

生的概率,H(X | Y=y)是在给定Y的情况下,X的条件熵。

交叉熵

交叉熵是一个概率分布P和一个近似分布Q之间的距离度量。比

如说,我们可以把真实的概率分布P看作目标分布,把一个近似的分

布Q看作一个模型的输出分布。那么,我们可以使用交叉熵来衡量这

个模型和目标之间的差异。常常把交叉熵作为损失函数,用于分类或

回归问题中。

对于一个离散的变量X,它的概率分布是P(X)。如果我们的模型

对于X的预测概率分布是Q(X),那么它们之间的交叉熵可以用下面的

公式来计算:

H(P,Q)= - Σ x P(x) logQ(x)

交叉熵的含义就是衡量预测分布Q(X)和真实分布P(X)之间的差异。

如果两个分布完全一致,那么交叉熵就等于信息熵。如果两个分布差

异很大,那么它们之间的交叉熵就会变得非常大。

结语

相对熵,条件熵,交叉熵是信息论和机器学习中的基本概念。通

过这些概念,我们能够有效地度量概率分布之间的差异,为模型的最

优化和评估提供了一个强大的工具。


本文标签: 交叉 分布 模型 度量 条件