当前位置：首页 > news >正文

信息论核心概念详解

news 2025/4/29 8:31:32

信息论核心概念详解

一、熵（Entropy）

定义：熵用于衡量随机变量的不确定性，反映信息量的期望值。
公式推导：

单个事件的信息量： $-\log p(x)$
熵（期望信息量）：
$-\sum_{x \in \mathcal{X}} p(x) \log p(x)$
单位‌：以2为底时为比特（bits），自然对数为奈特（nats）
性质：熵越大，不确定性越高。例如，均匀分布的熵最大。

二、条件熵（Conditional Entropy）

定义：已知随机变量 $X$ 的条件下， $Y$ 的不确定性。
公式推导：
$\begin{aligned} H(Y|X) &= \sum_{x \in \mathcal{X}} p(x) H(Y|X=x) \\ &=-\sum_{x\in \mathcal{X}}p(x)\sum_{y \in \mathcal{Y}}p(y|x)\log p(y|x) \\ &= -\sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)} \end{aligned}$
链式法则：
$H (X, Y) = H (X) + H (Y ∣ X)$

三、联合熵（Joint Entropy）

定义：两个变量联合分布的不确定性。
公式：
$-\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x,y) \log p(x,y)$
关系：联合熵等于单个熵加条件熵，即：
$H (X, Y) = H (X) + H (Y ∣ X) = H (Y) + H (X ∣ Y)$

证明
$\begin{aligned} H(X,Y)&=-\sum_{x,y}p(x,y)\log p(x,y)\\ &=-\sum_{x,y}p(x,y)\log p(x)p(y|x)\\ &=-\sum_{x,y}p(x,y)\log p(x) - \sum_{x,y}p(x,y)\log p(y|x)\\ &=-\sum_{x \in \mathcal{X}} p(x) \log p(x) - \sum_{x,y}p(x,y)\log p(y|x)\\ &=H(X) + H(Y|X) \end{aligned}$

四、信息增益（Information Gain, IG）

定义：引入特征 $X$ 后，目标变量 $Y$ 的不确定性减少量。
公式：
$I G (Y, X) = H (Y) - H (Y ∣ X)$
本质：信息增益等于 $Y$ 和 $X$ 的互信息 $I (Y; X)$ 。

五、互信息（Mutual Information, MI）

定义：两个变量间的相互依赖程度。
公式推导：
$\sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} = H(X) - H(X|Y) = H(Y) - H(Y|X)$
证明:
$\begin{aligned} H(X)-H(X|Y)&=-\sum_{x}p(x)\log p(x) + \sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(y)}\\ &=-\sum_{x,y}p(x,y)\log p(x)+ \sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(y)}\\ &=\sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(x)p(y)}\\ &=I(X;Y) \end{aligned}$
性质：

对称性： $I (X; Y) = I (Y; X)$
非负性： $\geq 0$ ，独立时为零。

六、概念间关系总结

熵与联合熵： $H (X, Y) = H (X) + H (Y ∣ X)$
互信息与熵： $I (X; Y) = H (X) + H (Y) - H (X, Y)$
信息增益与互信息： $I G (Y, X) = I (Y; X)$

七、在机器学习与深度学习中的应用

1. 决策树与特征选择

信息增益：决策树（如ID3算法）通过最大化信息增益选择分裂特征。
示例：在分类任务中，选择使 $I G (Y, X)$ 最大的特征进行节点分裂。

2. 交叉熵损失函数

定义：衡量模型预测分布 $q (y ∣ x)$ 与真实分布 $p (y ∣ x)$ 的差异：
$-\sum_{y} p(y) \log q(y)$
应用：分类任务中常用交叉熵作为损失函数，最小化交叉熵等价于最大化似然估计。

3. 互信息最大化

无监督学习：通过最大化输入与隐变量的互信息学习表征（如InfoGAN）。
对比学习：目标函数设计为最大化正样本对的互信息（如SimCLR）。

4. 变分推断与KL散度

变分自编码器（VAE）：损失函数包含KL散度项 $D_{KL}(q(z|x) \| p(z))$ ，衡量近似后验与先验的差异。
KL散度与熵： $D_{KL}(p \| q) = H(p, q) - H(p)$ 。

5. 应用示例

决策树：用信息增益(互信息)选择特征，降低分类不确定性。
图像分类：交叉熵损失函数广泛用于ResNet、Transformer等模型。
对比学习：SimCLR通过最大化图像增强后的互信息学习表征。
生成模型：
1. VAE通过KL散度约束隐变量分布，确保生成多样性。
2. 在InfoGAN中，最大化潜在变量 $Z$ 与生成数据 $X$ 的互信息，以解耦生成因素。