啊啊啊啊啊啊啊啊啊啊
数学!!!!我恨你!!!
我也不是很知道这个是如运用在大模型调参的
但是看书中遇到了,不是很理解,就跑出来查一下这块知识 整来整去感觉整了坨大的。。。。
并没有很深体会。。。。 还要再沉淀沉淀。。。
emo中。。。。
费舍尔信息矩阵(Fisher Information Matrix, FIM)
1. 定义
费舍尔信息矩阵是衡量一个随机样本对未知参数统计信息量的矩阵。它是一个 m × m m \times m m×m矩阵,其中 m m m是参数的数量。费舍尔信息矩阵定义为:
F = E p ( x ∣ θ ) [ ∇ log p ( x ∣ θ ) ∇ log p ( x ∣ θ ) T ] \mathbf{F} = \mathbb{E}_{p(x|\theta)} \left[ \nabla \log p(x|\theta) \nabla \log p(x|\theta)^T \right] F=Ep(x∣θ)[∇logp(x∣θ)∇logp(x∣θ)T]
其中, ∇ log p ( x ∣ θ ) \nabla \log p(x|\theta) ∇logp(x∣θ)是关于参数 θ \theta θ的对数似然函数的梯度,而 E p ( x ∣ θ ) \mathbb{E}_{p(x|\theta)} Ep(x∣θ)表示在概率分布 p ( x ∣ θ ) p(x|\theta) p(x∣θ)下的期望。
2. 相关定理
- Asymptotic Normality of MLE:在多参数情况下,最大似然估计(MLE)的渐近正态性可以扩展到参数向量 θ \theta θ。根据定理15.2,如果 { f ( x ∣ θ ) : θ ∈ Ω } \{f(x|\theta) : \theta \in \Omega\} {f(x∣θ):θ∈Ω}是一个参数模型,其中 θ ∈ R k \theta \in \mathbb{R}^k θ∈Rk有 k k k个参数,并且 X 1 , … , X n X_1, \ldots, X_n X1,…,Xn是独立同分布的,那么 n ( θ ^ n − θ ) \sqrt{n}(\hat{\theta}_n - \theta) n(θ^n−θ)的分布趋近于 N ( 0 , I ( θ ) − 1 ) N(0, \mathbf{I}(\theta)^{-1}) N(0,I(θ)−1),其中 I ( θ ) − 1 \mathbf{I}(\theta)^{-1} I(θ)−1是 I ( θ ) \mathbf{I}(\theta) I(θ)的逆矩阵。
3. 公式
费舍尔信息矩阵的元素可以通过以下公式计算:
I ( θ ) i j = Cov θ ( ∂ ∂ θ i log f ( X ∣ θ ) , ∂ ∂ θ j log f ( X ∣ θ ) ) = − E θ ( ∂ 2 ∂ θ i ∂ θ j log f ( X ∣ θ ) ) \mathbf{I}(\theta)_{ij} = \text{Cov}_{\theta} \left( \frac{\partial}{\partial \theta_i} \log f(X|\theta), \frac{\partial}{\partial \theta_j} \log f(X|\theta) \right) = -E_{\theta} \left( \frac{\partial^2}{\partial \theta_i \partial \theta_j} \log f(X|\theta) \right) I(θ)ij=Covθ(∂θi∂logf(X∣θ),∂θj∂logf(X∣θ))=−Eθ(∂θi∂θj∂2logf(X∣θ))
这个公式表明费舍尔信息矩阵的第 i i i行第 j j j列元素是参数 θ \theta θ对数似然函数的二阶偏导数的负期望值。
4. 推导
推导费舍尔信息矩阵的过程涉及到对数似然函数的梯度和黑森矩阵(Hessian matrix)。对数似然函数的黑森矩阵是其梯度的雅可比矩阵,而费舍尔信息矩阵是这个黑森矩阵的负期望值。具体来说:
F = − E p ( x ∣ θ ) [ ∂ 2 ∂ θ ∂ θ T log p ( x ∣ θ ) ] \mathbf{F} = -\mathbb{E}_{p(x|\theta)} \left[ \frac{\partial^2}{\partial \theta \partial \theta^T} \log p(x|\theta) \right] F=−Ep(x∣θ)[∂θ∂θT∂2logp(x∣θ)]
这个公式表明费舍尔信息矩阵是参数 θ \theta θ对数似然函数的二阶偏导数的负期望值。
5. 应用
费舍尔信息矩阵在机器学习和统计学中有广泛的应用,包括但不限于:
- 自然梯度优化:利用费舍尔信息矩阵进行自然梯度优化,可以提高优化效率。
- Cramer-Rao下界:费舍尔信息矩阵与Cramer-Rao下界有关,后者提供了参数估计的方差下界。
低秩矩阵详细教程
1. 定义
低秩矩阵是指矩阵的秩(即矩阵中线性无关的行或列的最大数目)相对较小的矩阵。如果一个矩阵的秩远小于其行数或列数,那么这个矩阵就被称为低秩矩阵。低秩矩阵的每行或者每列都可以用其他的行或者列线性表示,这说明这个矩阵包含了大量的冗余信息。
2. 相关定理
-
Von Neumann Trace Inequality:对于 m ≥ n m \geq n m≥n,设 A , B ∈ R m × n A, B \in \mathbb{R}^{m \times n} A,B∈Rm×n具有奇异值 σ 1 ( A ) ≥ ⋯ ≥ σ n ( A ) \sigma_1(A) \geq \cdots \geq \sigma_n(A) σ1(A)≥⋯≥σn(A)和 σ 1 ( B ) ≥ ⋯ ≥ σ n ( B ) \sigma_1(B) \geq \cdots \geq \sigma_n(B) σ1(B)≥⋯≥σn(B),则有
∣ ⟨ A , B ⟩ ∣ ≤ ∑ i = 1 n σ i ( A ) σ i ( B ) | \langle A, B \rangle | \leq \sum_{i=1}^n \sigma_i(A)\sigma_i(B) ∣⟨A,B⟩∣≤∑i=1nσi(A)σi(B)。
这个不等式提供了两个矩阵内积的上界。 -
Schatten Norms:对于任意的 1 ≤ p ≤ ∞ 1 \leq p \leq \infty 1≤p≤∞, p p p-Schatten范数定义为
∥ A ∥ ( p ) : = ∥ s ( A ) ∥ p \|A\|(p) := \|s(A)\|_p ∥A∥(p):=∥s(A)∥p
其中 s ( A ) = ( σ 1 , … , σ n ) s(A) = (\sigma_1, \ldots, \sigma_n) s(A)=(σ1,…,σn)是 A A A的奇异值。这个范数是矩阵范数的一种,特别地, p = ∞ p = \infty p=∞时是谱范数, p = 2 p = 2 p=2时是Frobenius范数, p = 1 p = 1 p=1时是核范数。
3. 公式
-
核范数(Nuclear Norm):矩阵 A A A的核范数是其奇异值之和,即
∥ A ∥ ∗ = ∑ i = 1 n σ i ( A ) \|A\|_* = \sum_{i=1}^n \sigma_i(A) ∥A∥∗=∑i=1nσi(A)。
核范数在低秩矩阵补全中被用作凸松弛。 -
低秩近似:对于给定的矩阵 A A A,其最佳低秩近似 T k ( A ) T_k(A) Tk(A)可以通过截断奇异值分解(SVD)得到,即保留前 k k k个奇异值,舍去其余奇异值。对于任何酉不变范数,有
∥ T k ( A ) − A ∥ = ∑ i = k + 1 n σ i 2 \|T_k(A) - A\| = \sqrt{\sum_{i=k+1}^n \sigma_i^2} ∥Tk(A)−A∥=∑i=k+1nσi2
特别地,对于谱范数和Frobenius范数,有
∥ A − T k ( A ) ∥ 2 = σ k + 1 , ∥ A − T k ( A ) ∥ F = ∑ i = k + 1 n σ i 2 \|A - T_k(A)\|_2 = \sigma_{k+1}, \quad \|A - T_k(A)\|_F = \sqrt{\sum_{i=k+1}^n \sigma_i^2} ∥A−Tk(A)∥2=σk+1,∥A−Tk(A)∥F=∑i=k+1nσi2 。
4. 推导
-
低秩矩阵补全:考虑最小化核范数的问题,可以转化为最小化矩阵的Frobenius范数,即
min X ∥ X ∥ ∗ s.t. X Ω = Y Ω \min_{X} \|X\|_* \quad \text{s.t.} \quad X_\Omega = Y_\Omega minX∥X∥∗s.t.XΩ=YΩ
其中 Y Y Y是部分观测的矩阵, Ω \Omega Ω是观测到的元素索引集合, X X X是我们希望得到的估计矩阵。 -
SVD下的伪逆:对于矩阵 A A A的SVD分解 A = U Σ V T A = U\Sigma V^T A=UΣVT,其伪逆可以表示为
A † = V Σ † U T A^\dagger = V\Sigma^\dagger U^T A†=VΣ†UT
其中 Σ † \Sigma^\dagger Σ†是 Σ \Sigma Σ的伪逆,即对 Σ \Sigma Σ的非零元素取倒数并转置。
渐近正态性(Asymptotic Normality of MLE)
1. 定义
最大似然估计(MLE)的渐近正态性是指,当样本量趋于无穷大时,MLE估计量的分布趋近于正态分布。具体来说,如果 { f ( x ∣ θ ) : θ ∈ Ω } \{f(x|\theta) : \theta \in \Omega\} {f(x∣θ):θ∈Ω}是一个参数模型,其中 θ ∈ R k \theta \in \mathbb{R}^k θ∈Rk有 k k k个参数,并且 X 1 , … , X n X_1, \ldots, X_n X1,…,Xn是独立同分布的,那么 n ( θ ^ n − θ ) \sqrt{n}(\hat{\theta}_n - \theta) n(θ^n−θ)的分布趋近于 N ( 0 , I ( θ ) − 1 ) N(0, I(\theta)^{-1}) N(0,I(θ)−1),其中 I ( θ ) I(\theta) I(θ)是费舍尔信息矩阵。
2. 相关定理
- 渐近正态性定理:假设模型满足一定的正则条件,如对数似然函数在参数 θ \theta θ处是可微的,并且 θ ^ \hat{\theta} θ^是唯一解,那么 θ ^ \hat{\theta} θ^是渐近正态的,即 n ( θ ^ − θ 0 ) → d N ( 0 , I ( θ 0 ) − 1 ) \sqrt{n}(\hat{\theta} - \theta_0) \xrightarrow{d} N(0, I(\theta_0)^{-1}) n(θ^−θ0)dN(0,I(θ0)−1),其中 I ( θ ) I(\theta) I(θ)是费舍尔信息矩阵。
3. 公式
费舍尔信息矩阵的定义为:
I ( θ ) = E θ [ ( ∂ ∂ θ log f ( X ∣ θ ) ) ( ∂ ∂ θ log f ( X ∣ θ ) ) T ] = − E θ [ ∂ 2 ∂ θ 2 log f ( X ∣ θ ) ] I(\theta) = \mathbb{E}_{\theta} \left[ \left( \frac{\partial}{\partial \theta} \log f(X|\theta) \right) \left( \frac{\partial}{\partial \theta} \log f(X|\theta) \right)^T \right] = -\mathbb{E}_{\theta} \left[ \frac{\partial^2}{\partial \theta^2} \log f(X|\theta) \right] I(θ)=Eθ[(∂θ∂logf(X∣θ))(∂θ∂logf(X∣θ))T]=−Eθ[∂θ2∂2logf(X∣θ)]
渐近正态性的公式为:
n ( θ ^ n − θ ) → d N ( 0 , I ( θ ) − 1 ) \sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{d} N(0, I(\theta)^{-1}) n(θ^n−θ)dN(0,I(θ)−1)
4. 推导
推导渐近正态性的过程如下:
-
对数似然函数的定义:
l ( θ ) = ∑ i = 1 n log f ( X i ∣ θ ) l(\theta) = \sum_{i=1}^n \log f(X_i|\theta) l(θ)=∑i=1nlogf(Xi∣θ) -
得分函数(Score Function):
S ( θ ) = ∂ ∂ θ l ( θ ) = ∑ i = 1 n ∂ ∂ θ log f ( X i ∣ θ ) S(\theta) = \frac{\partial}{\partial \theta} l(\theta) = \sum_{i=1}^n \frac{\partial}{\partial \theta} \log f(X_i|\theta) S(θ)=∂θ∂l(θ)=∑i=1n∂θ∂logf(Xi∣θ) -
费舍尔信息矩阵:
I ( θ ) = E θ [ ( ∂ ∂ θ log f ( X ∣ θ ) ) ( ∂ ∂ θ log f ( X ∣ θ ) ) T ] I(\theta) = \mathbb{E}_{\theta} \left[ \left( \frac{\partial}{\partial \theta} \log f(X|\theta) \right) \left( \frac{\partial}{\partial \theta} \log f(X|\theta) \right)^T \right] I(θ)=Eθ[(∂θ∂logf(X∣θ))(∂θ∂logf(X∣θ))T] -
中心极限定理的应用:
根据中心极限定理,得分函数的均值为零,方差为费舍尔信息矩阵:
n ( 1 n S ( θ ) ) → d N ( 0 , I ( θ ) ) \sqrt{n} \left( \frac{1}{n} S(\theta) \right) \xrightarrow{d} N(0, I(\theta)) n(n1S(θ))dN(0,I(θ)) -
泰勒展开:
对于MLE θ ^ \hat{\theta} θ^,在 θ 0 \theta_0 θ0处进行泰勒展开:
0 = S ( θ ^ ) ≈ S ( θ 0 ) + ∂ S ( θ 0 ) ∂ θ ( θ ^ − θ 0 ) 0 = S(\hat{\theta}) \approx S(\theta_0) + \frac{\partial S(\theta_0)}{\partial \theta} (\hat{\theta} - \theta_0) 0=S(θ^)≈S(θ0)+∂θ∂S(θ0)(θ^−θ0) -
渐近正态性:
由于 ∂ S ( θ 0 ) ∂ θ ≈ − n I ( θ 0 ) \frac{\partial S(\theta_0)}{\partial \theta} \approx -nI(\theta_0) ∂θ∂S(θ0)≈−nI(θ0),我们有:
n ( θ ^ − θ 0 ) ≈ − ( 1 n ∂ S ( θ 0 ) ∂ θ ) − 1 ( 1 n S ( θ 0 ) ) → d N ( 0 , I ( θ 0 ) − 1 ) \sqrt{n} (\hat{\theta} - \theta_0) \approx -\left( \frac{1}{n} \frac{\partial S(\theta_0)}{\partial \theta} \right)^{-1} \left( \frac{1}{\sqrt{n}} S(\theta_0) \right) \xrightarrow{d} N(0, I(\theta_0)^{-1}) n(θ^−θ0)≈−(n1∂θ∂S(θ0))−1(n1S(θ0))dN(0,I(θ0)−1)
5. 应用
- 参数估计的方差下界:渐近正态性表明,MLE在大样本情况下是无偏的,并且其方差达到Cramer-Rao下界。
- 置信区间的构建:利用渐近正态性,可以构建参数的置信区间。例如,对于参数 θ \theta θ,其估计值 θ ^ \hat{\theta} θ^的置信区间可以表示为 θ ^ ± z α / 2 I ( θ ^ ) − 1 / n \hat{\theta} \pm z_{\alpha/2} \sqrt{I(\hat{\theta})^{-1}/n} θ^±zα/2I(θ^)−1/n。