费舍尔信息矩阵 低秩矩阵 渐近正态性

啊啊啊啊啊啊啊啊啊啊
数学!!!!我恨你!!!
我也不是很知道这个是如运用在大模型调参的
但是看书中遇到了,不是很理解,就跑出来查一下这块知识 整来整去感觉整了坨大的。。。。
并没有很深体会。。。。 还要再沉淀沉淀。。。
emo中。。。。

费舍尔信息矩阵(Fisher Information Matrix, FIM)

1. 定义

费舍尔信息矩阵是衡量一个随机样本对未知参数统计信息量的矩阵。它是一个 m × m m \times m m×m矩阵,其中 m m m是参数的数量。费舍尔信息矩阵定义为:
F = E p ( x ∣ θ ) [ ∇ log ⁡ p ( x ∣ θ ) ∇ log ⁡ p ( x ∣ θ ) T ] \mathbf{F} = \mathbb{E}_{p(x|\theta)} \left[ \nabla \log p(x|\theta) \nabla \log p(x|\theta)^T \right] F=Ep(xθ)[logp(xθ)logp(xθ)T]
其中, ∇ log ⁡ p ( x ∣ θ ) \nabla \log p(x|\theta) logp(xθ)是关于参数 θ \theta θ的对数似然函数的梯度,而 E p ( x ∣ θ ) \mathbb{E}_{p(x|\theta)} Ep(xθ)表示在概率分布 p ( x ∣ θ ) p(x|\theta) p(xθ)下的期望。

2. 相关定理

  • Asymptotic Normality of MLE:在多参数情况下,最大似然估计(MLE)的渐近正态性可以扩展到参数向量 θ \theta θ。根据定理15.2,如果 { f ( x ∣ θ ) : θ ∈ Ω } \{f(x|\theta) : \theta \in \Omega\} {f(xθ):θΩ}是一个参数模型,其中 θ ∈ R k \theta \in \mathbb{R}^k θRk k k k个参数,并且 X 1 , … , X n X_1, \ldots, X_n X1,,Xn是独立同分布的,那么 n ( θ ^ n − θ ) \sqrt{n}(\hat{\theta}_n - \theta) n (θ^nθ)的分布趋近于 N ( 0 , I ( θ ) − 1 ) N(0, \mathbf{I}(\theta)^{-1}) N(0,I(θ)1),其中 I ( θ ) − 1 \mathbf{I}(\theta)^{-1} I(θ)1 I ( θ ) \mathbf{I}(\theta) I(θ)的逆矩阵。

3. 公式

费舍尔信息矩阵的元素可以通过以下公式计算:
I ( θ ) i j = Cov θ ( ∂ ∂ θ i log ⁡ f ( X ∣ θ ) , ∂ ∂ θ j log ⁡ f ( X ∣ θ ) ) = − E θ ( ∂ 2 ∂ θ i ∂ θ j log ⁡ f ( X ∣ θ ) ) \mathbf{I}(\theta)_{ij} = \text{Cov}_{\theta} \left( \frac{\partial}{\partial \theta_i} \log f(X|\theta), \frac{\partial}{\partial \theta_j} \log f(X|\theta) \right) = -E_{\theta} \left( \frac{\partial^2}{\partial \theta_i \partial \theta_j} \log f(X|\theta) \right) I(θ)ij=Covθ(θilogf(Xθ),θjlogf(Xθ))=Eθ(θiθj2logf(Xθ))
这个公式表明费舍尔信息矩阵的第 i i i行第 j j j列元素是参数 θ \theta θ对数似然函数的二阶偏导数的负期望值。

4. 推导

推导费舍尔信息矩阵的过程涉及到对数似然函数的梯度和黑森矩阵(Hessian matrix)。对数似然函数的黑森矩阵是其梯度的雅可比矩阵,而费舍尔信息矩阵是这个黑森矩阵的负期望值。具体来说:
F = − E p ( x ∣ θ ) [ ∂ 2 ∂ θ ∂ θ T log ⁡ p ( x ∣ θ ) ] \mathbf{F} = -\mathbb{E}_{p(x|\theta)} \left[ \frac{\partial^2}{\partial \theta \partial \theta^T} \log p(x|\theta) \right] F=Ep(xθ)[θθT2logp(xθ)]
这个公式表明费舍尔信息矩阵是参数 θ \theta θ对数似然函数的二阶偏导数的负期望值。

5. 应用

费舍尔信息矩阵在机器学习和统计学中有广泛的应用,包括但不限于:

  • 自然梯度优化:利用费舍尔信息矩阵进行自然梯度优化,可以提高优化效率。
  • Cramer-Rao下界:费舍尔信息矩阵与Cramer-Rao下界有关,后者提供了参数估计的方差下界。

低秩矩阵详细教程

1. 定义

低秩矩阵是指矩阵的秩(即矩阵中线性无关的行或列的最大数目)相对较小的矩阵。如果一个矩阵的秩远小于其行数或列数,那么这个矩阵就被称为低秩矩阵。低秩矩阵的每行或者每列都可以用其他的行或者列线性表示,这说明这个矩阵包含了大量的冗余信息。

2. 相关定理

  • Von Neumann Trace Inequality:对于 m ≥ n m \geq n mn,设 A , B ∈ R m × n A, B \in \mathbb{R}^{m \times n} A,BRm×n具有奇异值 σ 1 ( A ) ≥ ⋯ ≥ σ n ( A ) \sigma_1(A) \geq \cdots \geq \sigma_n(A) σ1(A)σn(A) σ 1 ( B ) ≥ ⋯ ≥ σ n ( B ) \sigma_1(B) \geq \cdots \geq \sigma_n(B) σ1(B)σn(B),则有
    ∣ ⟨ A , B ⟩ ∣ ≤ ∑ i = 1 n σ i ( A ) σ i ( B ) | \langle A, B \rangle | \leq \sum_{i=1}^n \sigma_i(A)\sigma_i(B) A,Bi=1nσi(A)σi(B)
    这个不等式提供了两个矩阵内积的上界。

  • Schatten Norms:对于任意的 1 ≤ p ≤ ∞ 1 \leq p \leq \infty 1p p p p-Schatten范数定义为
    ∥ A ∥ ( p ) : = ∥ s ( A ) ∥ p \|A\|(p) := \|s(A)\|_p A(p):=s(A)p
    其中 s ( A ) = ( σ 1 , … , σ n ) s(A) = (\sigma_1, \ldots, \sigma_n) s(A)=(σ1,,σn) A A A的奇异值。这个范数是矩阵范数的一种,特别地, p = ∞ p = \infty p=时是谱范数, p = 2 p = 2 p=2时是Frobenius范数, p = 1 p = 1 p=1时是核范数。

3. 公式

  • 核范数(Nuclear Norm):矩阵 A A A的核范数是其奇异值之和,即
    ∥ A ∥ ∗ = ∑ i = 1 n σ i ( A ) \|A\|_* = \sum_{i=1}^n \sigma_i(A) A=i=1nσi(A)
    核范数在低秩矩阵补全中被用作凸松弛。

  • 低秩近似:对于给定的矩阵 A A A,其最佳低秩近似 T k ( A ) T_k(A) Tk(A)可以通过截断奇异值分解(SVD)得到,即保留前 k k k个奇异值,舍去其余奇异值。对于任何酉不变范数,有
    ∥ T k ( A ) − A ∥ = ∑ i = k + 1 n σ i 2 \|T_k(A) - A\| = \sqrt{\sum_{i=k+1}^n \sigma_i^2} Tk(A)A=i=k+1nσi2
    特别地,对于谱范数和Frobenius范数,有
    ∥ A − T k ( A ) ∥ 2 = σ k + 1 , ∥ A − T k ( A ) ∥ F = ∑ i = k + 1 n σ i 2 \|A - T_k(A)\|_2 = \sigma_{k+1}, \quad \|A - T_k(A)\|_F = \sqrt{\sum_{i=k+1}^n \sigma_i^2} ATk(A)2=σk+1,ATk(A)F=i=k+1nσi2

4. 推导

  • 低秩矩阵补全:考虑最小化核范数的问题,可以转化为最小化矩阵的Frobenius范数,即
    min ⁡ X ∥ X ∥ ∗ s.t. X Ω = Y Ω \min_{X} \|X\|_* \quad \text{s.t.} \quad X_\Omega = Y_\Omega minXXs.t.XΩ=YΩ
    其中 Y Y Y是部分观测的矩阵, Ω \Omega Ω是观测到的元素索引集合, X X X是我们希望得到的估计矩阵。

  • SVD下的伪逆:对于矩阵 A A A的SVD分解 A = U Σ V T A = U\Sigma V^T A=UΣVT,其伪逆可以表示为
    A † = V Σ † U T A^\dagger = V\Sigma^\dagger U^T A=VΣUT
    其中 Σ † \Sigma^\dagger Σ Σ \Sigma Σ的伪逆,即对 Σ \Sigma Σ的非零元素取倒数并转置。

渐近正态性(Asymptotic Normality of MLE)

1. 定义

最大似然估计(MLE)的渐近正态性是指,当样本量趋于无穷大时,MLE估计量的分布趋近于正态分布。具体来说,如果 { f ( x ∣ θ ) : θ ∈ Ω } \{f(x|\theta) : \theta \in \Omega\} {f(xθ):θΩ}是一个参数模型,其中 θ ∈ R k \theta \in \mathbb{R}^k θRk k k k个参数,并且 X 1 , … , X n X_1, \ldots, X_n X1,,Xn是独立同分布的,那么 n ( θ ^ n − θ ) \sqrt{n}(\hat{\theta}_n - \theta) n (θ^nθ)的分布趋近于 N ( 0 , I ( θ ) − 1 ) N(0, I(\theta)^{-1}) N(0,I(θ)1),其中 I ( θ ) I(\theta) I(θ)是费舍尔信息矩阵。

2. 相关定理

  • 渐近正态性定理:假设模型满足一定的正则条件,如对数似然函数在参数 θ \theta θ处是可微的,并且 θ ^ \hat{\theta} θ^是唯一解,那么 θ ^ \hat{\theta} θ^是渐近正态的,即 n ( θ ^ − θ 0 ) → d N ( 0 , I ( θ 0 ) − 1 ) \sqrt{n}(\hat{\theta} - \theta_0) \xrightarrow{d} N(0, I(\theta_0)^{-1}) n (θ^θ0)d N(0,I(θ0)1),其中 I ( θ ) I(\theta) I(θ)是费舍尔信息矩阵。

3. 公式

费舍尔信息矩阵的定义为:
I ( θ ) = E θ [ ( ∂ ∂ θ log ⁡ f ( X ∣ θ ) ) ( ∂ ∂ θ log ⁡ f ( X ∣ θ ) ) T ] = − E θ [ ∂ 2 ∂ θ 2 log ⁡ f ( X ∣ θ ) ] I(\theta) = \mathbb{E}_{\theta} \left[ \left( \frac{\partial}{\partial \theta} \log f(X|\theta) \right) \left( \frac{\partial}{\partial \theta} \log f(X|\theta) \right)^T \right] = -\mathbb{E}_{\theta} \left[ \frac{\partial^2}{\partial \theta^2} \log f(X|\theta) \right] I(θ)=Eθ[(θlogf(Xθ))(θlogf(Xθ))T]=Eθ[θ22logf(Xθ)]

渐近正态性的公式为:
n ( θ ^ n − θ ) → d N ( 0 , I ( θ ) − 1 ) \sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{d} N(0, I(\theta)^{-1}) n (θ^nθ)d N(0,I(θ)1)

4. 推导

推导渐近正态性的过程如下:

  1. 对数似然函数的定义
    l ( θ ) = ∑ i = 1 n log ⁡ f ( X i ∣ θ ) l(\theta) = \sum_{i=1}^n \log f(X_i|\theta) l(θ)=i=1nlogf(Xiθ)

  2. 得分函数(Score Function)
    S ( θ ) = ∂ ∂ θ l ( θ ) = ∑ i = 1 n ∂ ∂ θ log ⁡ f ( X i ∣ θ ) S(\theta) = \frac{\partial}{\partial \theta} l(\theta) = \sum_{i=1}^n \frac{\partial}{\partial \theta} \log f(X_i|\theta) S(θ)=θl(θ)=i=1nθlogf(Xiθ)

  3. 费舍尔信息矩阵
    I ( θ ) = E θ [ ( ∂ ∂ θ log ⁡ f ( X ∣ θ ) ) ( ∂ ∂ θ log ⁡ f ( X ∣ θ ) ) T ] I(\theta) = \mathbb{E}_{\theta} \left[ \left( \frac{\partial}{\partial \theta} \log f(X|\theta) \right) \left( \frac{\partial}{\partial \theta} \log f(X|\theta) \right)^T \right] I(θ)=Eθ[(θlogf(Xθ))(θlogf(Xθ))T]

  4. 中心极限定理的应用
    根据中心极限定理,得分函数的均值为零,方差为费舍尔信息矩阵:
    n ( 1 n S ( θ ) ) → d N ( 0 , I ( θ ) ) \sqrt{n} \left( \frac{1}{n} S(\theta) \right) \xrightarrow{d} N(0, I(\theta)) n (n1S(θ))d N(0,I(θ))

  5. 泰勒展开
    对于MLE θ ^ \hat{\theta} θ^,在 θ 0 \theta_0 θ0处进行泰勒展开:
    0 = S ( θ ^ ) ≈ S ( θ 0 ) + ∂ S ( θ 0 ) ∂ θ ( θ ^ − θ 0 ) 0 = S(\hat{\theta}) \approx S(\theta_0) + \frac{\partial S(\theta_0)}{\partial \theta} (\hat{\theta} - \theta_0) 0=S(θ^)S(θ0)+θS(θ0)(θ^θ0)

  6. 渐近正态性
    由于 ∂ S ( θ 0 ) ∂ θ ≈ − n I ( θ 0 ) \frac{\partial S(\theta_0)}{\partial \theta} \approx -nI(\theta_0) θS(θ0)nI(θ0),我们有:
    n ( θ ^ − θ 0 ) ≈ − ( 1 n ∂ S ( θ 0 ) ∂ θ ) − 1 ( 1 n S ( θ 0 ) ) → d N ( 0 , I ( θ 0 ) − 1 ) \sqrt{n} (\hat{\theta} - \theta_0) \approx -\left( \frac{1}{n} \frac{\partial S(\theta_0)}{\partial \theta} \right)^{-1} \left( \frac{1}{\sqrt{n}} S(\theta_0) \right) \xrightarrow{d} N(0, I(\theta_0)^{-1}) n (θ^θ0)(n1θS(θ0))1(n 1S(θ0))d N(0,I(θ0)1)

5. 应用

  • 参数估计的方差下界:渐近正态性表明,MLE在大样本情况下是无偏的,并且其方差达到Cramer-Rao下界。
  • 置信区间的构建:利用渐近正态性,可以构建参数的置信区间。例如,对于参数 θ \theta θ,其估计值 θ ^ \hat{\theta} θ^的置信区间可以表示为 θ ^ ± z α / 2 I ( θ ^ ) − 1 / n \hat{\theta} \pm z_{\alpha/2} \sqrt{I(\hat{\theta})^{-1}/n} θ^±zα/2I(θ^)1/n

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/8180.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

2025年山东省考报名流程图解

2025年山东公务员考试备考开始 为大家整理了从笔试到录用的全部流程,希望可以帮助到你们!参考2024年山东省考公告整理,请以最新公告为准! 一、阅读公告和职位表 二、职位查询 三、网上报名 四、确认缴费 五、网上打印准考证 六、参…

网络安全入门篇之详细学习路线

什么是网络安全 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 无论网络、Web、移动、桌面、云等哪个领域,都有攻与防两面性&…

什么是大数据治理?在企业数字化转型过程中有什么用?

建设背景 有效的数据治理不仅能够确保数据的安全和质量,还能为企业提供深入的业务洞察,推动决策制定和创新。数据治理是数字化转型的基础,是数据资源成为数据资产的基础,只有经过了数据治理,相应的数据资源才能产生价…

Kalshi PK Polymarket,谁更胜一筹

https://kalshi.com https://polymarket.com/ 在刚过去的2024 美大选中,这两个网站可谓风光无限。这两者究竟有何区别呢,今天咱们一起来扒一扒。 Kalshi与Polymarket主要有以下区别: 监管与合法性方面: Kalshi:经过美…

UI测试还在Selenium,难怪你会被淘汰

一、前言 在UI自动化测试的领域中,Selenium无疑是一颗璀璨的明星,它以其强大的浏览器自动化能力,长期以来一直是众多测试工程师的首选工具。它很经典,地位也毋庸置疑,但也是过去式了,现在我采用的自动化方…

基于ssm的网上药房管理系统的设计与实现(源码+LW+调试)

项目描述 临近学期结束,还是毕业设计,你还在做java程序网络编程,期末作业,老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。今天给大家介绍一篇基于java的ssm网上药房管…

godot——主题、Theme、StyleBox

我刚开始被这些术语吓到了,一直不敢去接触它们,都用的默认样式。现在好不容易有点思路了,记录下来。 下面看看怎么自定义样式。 1.先新建一个Theme 2.再次点击创建好的Theme 得到 图1 这样一个面板。(看不懂没事,继…

如何利用Python API接口实战中高效地获取商品详情信息

在电商数据分析和商品信息集成领域,高效地获取商品详情信息是至关重要的。本文将介绍如何使用Python结合API接口,从淘宝/天猫平台获取商品详情信息,并提供实战代码示例。 一、理解API接口的重要性 API(应用程序编程接口&#xff…

【Linux】编辑器vim 与 编译器gcc/g++

目录 一、编辑器vim: 1、对vim初步理解: 2、vim的模式: 3、进入与退出: 4、vim命令模式下的指令集: 移动光标: 删除: cv: 撤销: 其他: 5、vim底行模…

不支持UEFI的老显卡修改vBIOS进行支持

前段时间要在办公室玩恐怖黎明,但是联想自带的GT730实在是有点慢,后来闲鱼收了一张HD7750,虽然也是老掉牙,但是性能也有3成提升,聊胜于无吧.但是存在HD7750不支持UEFI的问题.具体表现为: 系统是win11未进系统时,什么都不显示,不能进BIOS.刚换卡未装驱动的时候,即使已经进入系统…

qt QWheelEvent详解

1、概述 QWheelEvent是Qt框架中用于处理鼠标滚轮事件的一个类。当用户滚动鼠标滚轮时,Qt会生成一个QWheelEvent事件,并将其发送到相应的窗口或控件。开发者可以通过重载窗口或控件的wheelEvent()方法来响应这个事件,并执行相应的操作&#x…

如何训练最懂您企业的AI助理?

随着人工智能技术的蓬勃发展,企业级AI助理已成为提升工作效率、优化客户服务体验的重要利器。这些智慧化的系统,通过模拟人类的认知功能,能够轻松应对复杂的数据分析、自动化繁琐的日常任务,甚至为企业决策提供有力支持。拥有一款…

2024网鼎杯web1+re2 wp

这两道题属于比较简单的,顺道说一下,今年的题有点抽象,web不是misc,re不是web的,也有可能时代在进步,现在要求全栈✌了吧 web1 最开始被强网的小浣熊带偏思路了,进来疯狂找sql注入&#xff0c…

【Android 系统中使用CallStack类来追踪获取和操作调用栈信息】

Android系统CallStack类的使用 定义使用方法使用场景注意事项应用举例 定义 在 Android 系统中,CallStack 类是一个用于获取和操作调用栈信息的工具类。这个类通常用于调试和日志记录,以帮助开发者了解函数调用的顺序和位置。以下是您提供的代码片段的解…

Vue 组件通信-自定义事件(七)

一、组件自定事件概念 自己定义的事件,包含事件名,事件回调等,定义好之后去给组件使用。也是一种组件的通信方式,适用于子组件传递给父组件。 二、 组件自定义事件实现子传父 1、在父组件中给子组件绑定一个自定义事件 在子组件标…

解决Qt Creator调试“warning: GDB: Failed to set controlling terminal“

本文档详细介绍了在Qt环境中遇到GDB提示Failed to set controlling terminal错误时的解决方案,步骤包括勾选Run in Terminal选项。适合开发者在调试过程中遇到此类问题时参考。 &"warning: GDB: Failed to set controlling terminal: \345\257\271\350\25…

nginx 部署2个相同的vue

起因: 最近遇到一个问题,在前端用nginx 部署 vue, 发现如果前端有改动,如果不适用热更新,而是直接复制项目过去,会404 因此想到用nginx 负载两套相同vue项目,然后一个个复制vue项目就可以了。…

城镇保障性住房管理:SpringBoot技术探索

4系统概要设计 4.1概述 本系统采用B/S结构(Browser/Server,浏览器/服务器结构)和基于Web服务两种模式,是一个适用于Internet环境下的模型结构。只要用户能连上Internet,便可以在任何时间、任何地点使用。系统工作原理图如图4-1所示: 图4-1系统工作原理…

ssm075学生信息管理系统+jsp(论文+源码)_kaic

毕 业 设 计(论 文) 学生信息管理系统设计与实现 摘 要 传统办法管理学生信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此&#xff…

Linux学习笔记之运行级别和找回root密码

运行级别 运行级别介绍 0:关机 1:单用户(找回丢失密码) 2:多用户状态没有网络服务(基本不用) 3:多用户状态有网络服务(常用,Xshell就是级别3) 4&…