信息论核心概念详解
信息论核心概念详解
一、熵(Entropy)
定义:熵用于衡量随机变量的不确定性,反映信息量的期望值。
公式推导:
- 单个事件的信息量: I ( x ) = − log p ( x ) I(x) = -\log p(x) I(x)=−logp(x)
- 熵(期望信息量):
H ( X ) = − ∑ x ∈ X p ( x ) log p ( x ) H(X) = -\sum_{x \in \mathcal{X}} p(x) \log p(x) H(X)=−x∈X∑p(x)logp(x)
单位:以2为底时为比特(bits),自然对数为奈特(nats)
性质:熵越大,不确定性越高。例如,均匀分布的熵最大。
二、条件熵(Conditional Entropy)
定义:已知随机变量 X X X 的条件下, Y Y Y 的不确定性。
公式推导:
H ( Y ∣ X ) = ∑ x ∈ X p ( x ) H ( Y ∣ X = x ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y ∣ x ) log p ( y ∣ x ) = − ∑ x , y p ( x , y ) log p ( x , y ) p ( x ) \begin{aligned} H(Y|X) &= \sum_{x \in \mathcal{X}} p(x) H(Y|X=x) \\ &=-\sum_{x\in \mathcal{X}}p(x)\sum_{y \in \mathcal{Y}}p(y|x)\log p(y|x) \\ &= -\sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)} \end{aligned} H(Y∣X)=x∈X∑p(x)H(Y∣X=x)=−x∈X∑p(x)y∈Y∑p(y∣x)logp(y∣x)=−x,y∑p(x,y)logp(x)p(x,y)
链式法则:
H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y) = H(X) + H(Y|X) H(X,Y)=H(X)+H(Y∣X)
三、联合熵(Joint Entropy)
定义:两个变量联合分布的不确定性。
公式:
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x , y ) H(X,Y) = -\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x,y) \log p(x,y) H(X,Y)=−x∈X∑y∈Y∑p(x,y)logp(x,y)
关系:联合熵等于单个熵加条件熵,即:
H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y) H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)
证明
H ( X , Y ) = − ∑ x , y p ( x , y ) log p ( x , y ) = − ∑ x , y p ( x , y ) log p ( x ) p ( y ∣ x ) = − ∑ x , y p ( x , y ) log p ( x ) − ∑ x , y p ( x , y ) log p ( y ∣ x ) = − ∑ x ∈ X p ( x ) log p ( x ) − ∑ x , y p ( x , y ) log p ( y ∣ x ) = H ( X ) + H ( Y ∣ X ) \begin{aligned} H(X,Y)&=-\sum_{x,y}p(x,y)\log p(x,y)\\ &=-\sum_{x,y}p(x,y)\log p(x)p(y|x)\\ &=-\sum_{x,y}p(x,y)\log p(x) - \sum_{x,y}p(x,y)\log p(y|x)\\ &=-\sum_{x \in \mathcal{X}} p(x) \log p(x) - \sum_{x,y}p(x,y)\log p(y|x)\\ &=H(X) + H(Y|X) \end{aligned} H(X,Y)=−x,y∑p(x,y)logp(x,y)=−x,y∑p(x,y)logp(x)p(y∣x)=−x,y∑p(x,y)logp(x)−x,y∑p(x,y)logp(y∣x)=−x∈X∑p(x)logp(x)−x,y∑p(x,y)logp(y∣x)=H(X)+H(Y∣X)
四、信息增益(Information Gain, IG)
定义:引入特征 X X X 后,目标变量 Y Y Y 的不确定性减少量。
公式:
I G ( Y , X ) = H ( Y ) − H ( Y ∣ X ) IG(Y,X) = H(Y) - H(Y|X) IG(Y,X)=H(Y)−H(Y∣X)
本质:信息增益等于 Y Y Y 和 X X X 的互信息 I ( Y ; X ) I(Y;X) I(Y;X)。
五、互信息(Mutual Information, MI)
定义:两个变量间的相互依赖程度。
公式推导:
I ( X ; Y ) = ∑ x , y p ( x , y ) log p ( x , y ) p ( x ) p ( y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} = H(X) - H(X|Y) = H(Y) - H(Y|X) I(X;Y)=x,y∑p(x,y)logp(x)p(y)p(x,y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)
证明:
H ( X ) − H ( X ∣ Y ) = − ∑ x p ( x ) log p ( x ) + ∑ x , y p ( x , y ) log p ( x , y ) p ( y ) = − ∑ x , y p ( x , y ) log p ( x ) + ∑ x , y p ( x , y ) log p ( x , y ) p ( y ) = ∑ x , y p ( x , y ) log p ( x , y ) p ( x ) p ( y ) = I ( X ; Y ) \begin{aligned} H(X)-H(X|Y)&=-\sum_{x}p(x)\log p(x) + \sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(y)}\\ &=-\sum_{x,y}p(x,y)\log p(x)+ \sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(y)}\\ &=\sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(x)p(y)}\\ &=I(X;Y) \end{aligned} H(X)−H(X∣Y)=−x∑p(x)logp(x)+x,y∑p(x,y)logp(y)p(x,y)=−x,y∑p(x,y)logp(x)+x,y∑p(x,y)logp(y)p(x,y)=x,y∑p(x,y)logp(x)p(y)p(x,y)=I(X;Y)
性质:
- 对称性: I ( X ; Y ) = I ( Y ; X ) I(X;Y) = I(Y;X) I(X;Y)=I(Y;X)
- 非负性: I ( X ; Y ) ≥ 0 I(X;Y) \geq 0 I(X;Y)≥0,独立时为零。
六、概念间关系总结
- 熵与联合熵: H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y) = H(X) + H(Y|X) H(X,Y)=H(X)+H(Y∣X)
- 互信息与熵: I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X;Y) = H(X) + H(Y) - H(X,Y) I(X;Y)=H(X)+H(Y)−H(X,Y)
- 信息增益与互信息: I G ( Y , X ) = I ( Y ; X ) IG(Y,X) = I(Y;X) IG(Y,X)=I(Y;X)
七、在机器学习与深度学习中的应用
1. 决策树与特征选择
- 信息增益:决策树(如ID3算法)通过最大化信息增益选择分裂特征。
- 示例:在分类任务中,选择使 I G ( Y , X ) IG(Y,X) IG(Y,X) 最大的特征进行节点分裂。
2. 交叉熵损失函数
- 定义:衡量模型预测分布 q ( y ∣ x ) q(y|x) q(y∣x) 与真实分布 p ( y ∣ x ) p(y|x) p(y∣x) 的差异:
H ( p , q ) = − ∑ y p ( y ) log q ( y ) H(p, q) = -\sum_{y} p(y) \log q(y) H(p,q)=−y∑p(y)logq(y) - 应用:分类任务中常用交叉熵作为损失函数,最小化交叉熵等价于最大化似然估计。
3. 互信息最大化
- 无监督学习:通过最大化输入与隐变量的互信息学习表征(如InfoGAN)。
- 对比学习:目标函数设计为最大化正样本对的互信息(如SimCLR)。
4. 变分推断与KL散度
- 变分自编码器(VAE):损失函数包含KL散度项 D K L ( q ( z ∣ x ) ∥ p ( z ) ) D_{KL}(q(z|x) \| p(z)) DKL(q(z∣x)∥p(z)),衡量近似后验与先验的差异。
- KL散度与熵: D K L ( p ∥ q ) = H ( p , q ) − H ( p ) D_{KL}(p \| q) = H(p, q) - H(p) DKL(p∥q)=H(p,q)−H(p)。
5. 应用示例
- 决策树:用信息增益(互信息)选择特征,降低分类不确定性。
- 图像分类:交叉熵损失函数广泛用于ResNet、Transformer等模型。
- 对比学习:SimCLR通过最大化图像增强后的互信息学习表征。
- 生成模型:
- VAE通过KL散度约束隐变量分布,确保生成多样性。
- 在InfoGAN中,最大化潜在变量 Z Z Z与生成数据 X X X的互信息,以解耦生成因素。