当前位置: 首页 > news >正文

信息论核心概念详解

信息论核心概念详解

一、熵(Entropy)

定义:熵用于衡量随机变量的不确定性,反映信息量的期望值。
公式推导

  • 单个事件的信息量: I ( x ) = − log ⁡ p ( x ) I(x) = -\log p(x) I(x)=logp(x)
  • 熵(期望信息量):
    H ( X ) = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) H(X) = -\sum_{x \in \mathcal{X}} p(x) \log p(x) H(X)=xXp(x)logp(x)
    单位‌:以2为底时为比特(bits),自然对数为奈特(nats)
    性质:熵越大,不确定性越高。例如,均匀分布的熵最大。

二、条件熵(Conditional Entropy)

定义:已知随机变量 X X X 的条件下, Y Y Y 的不确定性。
公式推导
H ( Y ∣ X ) = ∑ x ∈ X p ( x ) H ( Y ∣ X = x ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y ∣ x ) log ⁡ p ( y ∣ x ) = − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) \begin{aligned} H(Y|X) &= \sum_{x \in \mathcal{X}} p(x) H(Y|X=x) \\ &=-\sum_{x\in \mathcal{X}}p(x)\sum_{y \in \mathcal{Y}}p(y|x)\log p(y|x) \\ &= -\sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)} \end{aligned} H(YX)=xXp(x)H(YX=x)=xXp(x)yYp(yx)logp(yx)=x,yp(x,y)logp(x)p(x,y)
链式法则
H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y) = H(X) + H(Y|X) H(X,Y)=H(X)+H(YX)


三、联合熵(Joint Entropy)

定义:两个变量联合分布的不确定性。
公式
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) H(X,Y) = -\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x,y) \log p(x,y) H(X,Y)=xXyYp(x,y)logp(x,y)
关系:联合熵等于单个熵加条件熵,即:
H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y) H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)

证明
H ( X , Y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x ) p ( y ∣ x ) = − ∑ x , y p ( x , y ) log ⁡ p ( x ) − ∑ x , y p ( x , y ) log ⁡ p ( y ∣ x ) = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) − ∑ x , y p ( x , y ) log ⁡ p ( y ∣ x ) = H ( X ) + H ( Y ∣ X ) \begin{aligned} H(X,Y)&=-\sum_{x,y}p(x,y)\log p(x,y)\\ &=-\sum_{x,y}p(x,y)\log p(x)p(y|x)\\ &=-\sum_{x,y}p(x,y)\log p(x) - \sum_{x,y}p(x,y)\log p(y|x)\\ &=-\sum_{x \in \mathcal{X}} p(x) \log p(x) - \sum_{x,y}p(x,y)\log p(y|x)\\ &=H(X) + H(Y|X) \end{aligned} H(X,Y)=x,yp(x,y)logp(x,y)=x,yp(x,y)logp(x)p(yx)=x,yp(x,y)logp(x)x,yp(x,y)logp(yx)=xXp(x)logp(x)x,yp(x,y)logp(yx)=H(X)+H(YX)


四、信息增益(Information Gain, IG)

定义:引入特征 X X X 后,目标变量 Y Y Y 的不确定性减少量。
公式
I G ( Y , X ) = H ( Y ) − H ( Y ∣ X ) IG(Y,X) = H(Y) - H(Y|X) IG(Y,X)=H(Y)H(YX)
本质:信息增益等于 Y Y Y X X X 的互信息 I ( Y ; X ) I(Y;X) I(Y;X)


五、互信息(Mutual Information, MI)

定义:两个变量间的相互依赖程度。
公式推导
I ( X ; Y ) = ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} = H(X) - H(X|Y) = H(Y) - H(Y|X) I(X;Y)=x,yp(x,y)logp(x)p(y)p(x,y)=H(X)H(XY)=H(Y)H(YX)
证明:
H ( X ) − H ( X ∣ Y ) = − ∑ x p ( x ) log ⁡ p ( x ) + ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x ) + ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( y ) = ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) = I ( X ; Y ) \begin{aligned} H(X)-H(X|Y)&=-\sum_{x}p(x)\log p(x) + \sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(y)}\\ &=-\sum_{x,y}p(x,y)\log p(x)+ \sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(y)}\\ &=\sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(x)p(y)}\\ &=I(X;Y) \end{aligned} H(X)H(XY)=xp(x)logp(x)+x,yp(x,y)logp(y)p(x,y)=x,yp(x,y)logp(x)+x,yp(x,y)logp(y)p(x,y)=x,yp(x,y)logp(x)p(y)p(x,y)=I(X;Y)
性质

  • 对称性: I ( X ; Y ) = I ( Y ; X ) I(X;Y) = I(Y;X) I(X;Y)=I(Y;X)
  • 非负性: I ( X ; Y ) ≥ 0 I(X;Y) \geq 0 I(X;Y)0,独立时为零。

六、概念间关系总结

  1. 熵与联合熵 H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y) = H(X) + H(Y|X) H(X,Y)=H(X)+H(YX)
  2. 互信息与熵 I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X;Y) = H(X) + H(Y) - H(X,Y) I(X;Y)=H(X)+H(Y)H(X,Y)
  3. 信息增益与互信息 I G ( Y , X ) = I ( Y ; X ) IG(Y,X) = I(Y;X) IG(Y,X)=I(Y;X)

七、在机器学习与深度学习中的应用

1. 决策树与特征选择

  • 信息增益:决策树(如ID3算法)通过最大化信息增益选择分裂特征。
  • 示例:在分类任务中,选择使 I G ( Y , X ) IG(Y,X) IG(Y,X) 最大的特征进行节点分裂。

2. 交叉熵损失函数

  • 定义:衡量模型预测分布 q ( y ∣ x ) q(y|x) q(yx) 与真实分布 p ( y ∣ x ) p(y|x) p(yx) 的差异:
    H ( p , q ) = − ∑ y p ( y ) log ⁡ q ( y ) H(p, q) = -\sum_{y} p(y) \log q(y) H(p,q)=yp(y)logq(y)
  • 应用:分类任务中常用交叉熵作为损失函数,最小化交叉熵等价于最大化似然估计。

3. 互信息最大化

  • 无监督学习:通过最大化输入与隐变量的互信息学习表征(如InfoGAN)。
  • 对比学习:目标函数设计为最大化正样本对的互信息(如SimCLR)。

4. 变分推断与KL散度

  • 变分自编码器(VAE):损失函数包含KL散度项 D K L ( q ( z ∣ x ) ∥ p ( z ) ) D_{KL}(q(z|x) \| p(z)) DKL(q(zx)p(z)),衡量近似后验与先验的差异。
  • KL散度与熵 D K L ( p ∥ q ) = H ( p , q ) − H ( p ) D_{KL}(p \| q) = H(p, q) - H(p) DKL(pq)=H(p,q)H(p)

5. 应用示例

  1. 决策树:用信息增益(互信息)选择特征,降低分类不确定性。
  2. 图像分类:交叉熵损失函数广泛用于ResNet、Transformer等模型。
  3. 对比学习:SimCLR通过最大化图像增强后的互信息学习表征。
  4. 生成模型
    1. VAE通过KL散度约束隐变量分布,确保生成多样性。
    2. 在InfoGAN中,最大化潜在变量 Z Z Z与生成数据 X X X的互信息,以解耦生成因素。
http://www.xdnf.cn/news/161623.html

相关文章:

  • 利用【指针引用】对【非空单循环链表】进行删除操作
  • 服务器虚拟化:技术解析与实践指南
  • 协程(微线程)
  • Kdenlive 中的变形、畸变、透视相关功能
  • Python函数基础:简介,函数的定义,函数的调用和传入参数,函数的返回值
  • 架构整洁之道 心得
  • 【线段树】P11414 [EPXLQ2024 fall round] 神奇磁铁|普及+
  • 如何在 PowerShell 脚本中调用外部 Windows 命令
  • 精益数据分析(29/126):深入剖析电子商务商业模式
  • 021-C语言文件操作
  • Linux系统性能调优技巧分享
  • 如何创建一个C#项目(基于VS2022版)
  • 本地电脑安装DeepSeek
  • 【特殊场景应对9】视频简历的适用场景与风险分析
  • Python----深度学习(基于DNN的PM2.5预测)
  • 作为高速通道光纤传输模式怎么理解以及到底有哪些?
  • “CSDN还有皮肤?“-如何更换(全网最新)
  • 小白如何学会完整挪用Github项目?(以pix2pix为例)
  • 识破养生假象,拥抱科学健康
  • 【随笔】地理探测器原理与运用
  • Python并发编程全景解析:多线程、多进程与协程的深度对比
  • 【OSG学习笔记】Day 11: 文件格式与数据交换
  • 3.1/Q1,Charls最新文章解读
  • RNN——循环神经网络
  • Jmeter数据库url开关设置+常用Beanshell
  • NSIS打包
  • 补码底层逻辑探讨
  • Web渗透之系统入侵与提权维权
  • 100个节点的部署,整合Docker、Kubernetes和Jenkins的详细设计
  • setup语法糖