【有啥问啥】复习变分下界即证据下界(Evidence Lower Bound, ELBO):原理与应用

ELBO

复习变分下界即证据下界(Evidence Lower Bound, ELBO):原理与应用

变分下界(Variational Lower Bound),也称为“证据下界”(Evidence Lower Bound, ELBO),是概率模型中的一个重要概念,广泛用于变分推断(Variational Inference, VI)等领域。变分推断是一种近似推断方法,它通过将复杂的后验分布用一个易于处理的分布来近似,从而使得计算变得可行。变分下界是推导和优化这个近似分布的核心工具。本文将复习变分下界的基本概念、推导过程及其在机器学习中的应用。

1. 概念背景

在贝叶斯推断框架中,我们通常希望根据观测数据 x x x 来推断潜在变量 z z z 的后验分布 p ( z ∣ x ) p(z|x) p(zx)。后验分布的计算通常依赖于边缘似然(Marginal Likelihood):

p ( x ) = ∫ p ( x ∣ z ) p ( z ) d z p(x) = \int p(x|z) p(z) \, dz p(x)=p(xz)p(z)dz

这个积分通常非常复杂,因此直接计算 p ( z ∣ x ) p(z|x) p(zx) 并不现实。为了解决这一问题,变分推断通过引入一个近似分布 q ( z ) q(z) q(z) 来逼近后验分布 p ( z ∣ x ) p(z|x) p(zx),并通过最优化使得 q ( z ) q(z) q(z) 尽可能接近 p ( z ∣ x ) p(z|x) p(zx)

衡量 q ( z ) q(z) q(z) p ( z ∣ x ) p(z|x) p(zx) 之间的差异最常用的工具是 KL 散度(Kullback-Leibler divergence):

KL ( q ( z ) ∥ p ( z ∣ x ) ) = ∫ q ( z ) log ⁡ q ( z ) p ( z ∣ x ) d z \text{KL}(q(z) \parallel p(z|x)) = \int q(z) \log \frac{q(z)}{p(z|x)} dz KL(q(z)p(zx))=q(z)logp(zx)q(z)dz

KL 散度是非负的,并且只有在 q ( z ) = p ( z ∣ x ) q(z) = p(z|x) q(z)=p(zx) 时才为零。通过最小化 KL 散度,我们可以找到最优的 q ( z ) q(z) q(z)

2. 变分下界的推导

为了推导变分下界,我们从边缘似然的对数形式开始:

log ⁡ p ( x ) = log ⁡ ∫ p ( x ∣ z ) p ( z ) d z \log p(x) = \log \int p(x|z) p(z) dz logp(x)=logp(xz)p(z)dz

直接计算这一积分非常困难,因此我们引入 q ( z ) q(z) q(z) 并利用 Jensen 不等式,得到:

log ⁡ p ( x ) ≥ ∫ q ( z ) log ⁡ p ( x , z ) q ( z ) d z \log p(x) \geq \int q(z) \log \frac{p(x, z)}{q(z)} dz logp(x)q(z)logq(z)p(x,z)dz

右侧的表达式就是变分下界,即 ELBO。通过最大化这个下界,我们可以优化 q ( z ) q(z) q(z) 使其尽量接近后验分布 p ( z ∣ x ) p(z|x) p(zx)

进一步地,变分下界可以拆分为以下两部分:

L ( q ) = E q ( z ) [ log ⁡ p ( x ∣ z ) ] − KL ( q ( z ) ∥ p ( z ) ) \mathcal{L}(q) = \mathbb{E}_{q(z)}[\log p(x|z)] - \text{KL}(q(z) \parallel p(z)) L(q)=Eq(z)[logp(xz)]KL(q(z)p(z))

  • 第一项 E q ( z ) [ log ⁡ p ( x ∣ z ) ] \mathbb{E}_{q(z)}[\log p(x|z)] Eq(z)[logp(xz)] 是对数似然的期望,衡量模型对观测数据的拟合能力。
  • 第二项 KL ( q ( z ) ∥ p ( z ) ) \text{KL}(q(z) \parallel p(z)) KL(q(z)p(z)) 则衡量近似分布和先验分布之间的距离。

最大化 ELBO 使得近似分布 q ( z ) q(z) q(z) 同时具备良好的数据拟合能力,并不会偏离先验分布太多。

3. 变分下界的应用

(1) 变分自编码器(Variational Autoencoder, VAE

VAE 是变分推断在深度学习中的一个重要应用。它使用神经网络来参数化近似分布 q ( z ∣ x ) q(z|x) q(zx) 和生成分布 p ( x ∣ z ) p(x|z) p(xz),并通过最大化变分下界来训练模型。VAE 的目标函数为:

L ( q ) = E q ( z ∣ x ) [ log ⁡ p ( x ∣ z ) ] − KL ( q ( z ∣ x ) ∥ p ( z ) ) \mathcal{L}(q) = \mathbb{E}_{q(z|x)}[\log p(x|z)] - \text{KL}(q(z|x) \parallel p(z)) L(q)=Eq(zx)[logp(xz)]KL(q(zx)p(z))

其中,VAE 利用 重参数化技巧(Reparameterization Trick)来确保梯度能够正常反向传播,这一技巧是 VAE 的核心技术之一。

  • 传送门链接: 变分自编码器(Variational Autoencoder, VAE):深入理解与应用

(2) 无监督学习与 LDA

在主题模型如隐含狄利克雷分配(LDA)中,变分推断用于近似推断文档的主题分布。通过优化变分下界,LDA 能够有效地提取文档的潜在结构,并应用于推荐系统和文本分析等领域。

(3) 贝叶斯神经网络

贝叶斯神经网络通过引入变分推断来近似神经网络中的权重后验分布,这种方法能够有效量化模型的不确定性,从而增强泛化能力,特别适用于强化学习和决策系统。

4. 变分下界的局限性与改进

近似分布的限制

变分推断中,选择较为简单的分布(如高斯分布)来近似真实后验,可能无法准确描述复杂的后验分布。为了应对这个问题,基于流的方法(Flow-based Variational Inference)通过引入可逆神经网络增强了近似分布的表现力。

局部最优问题

由于优化的非凸性,变分推断容易陷入局部最优。针对这一问题,研究者提出了更多基于采样的方法,如 Monte Carlo 变分推断,以提高近似的质量。

5. 总结

变分下界是变分推断的核心工具,它通过最大化下界来找到近似的后验分布,使得复杂的推断问题变得可解。尽管变分下界在一些场景中存在局限性,但它仍然是生成模型、贝叶斯方法和无监督学习中的重要组成部分。随着算法的改进,变分推断及其下界的应用将会更加广泛。

参考文献

  1. Kingma, D.P., Welling, M. (2014). Auto-Encoding Variational Bayes. ICLR.
  2. Blei, D.M., Kucukelbir, A., McAuliffe, J.D. (2017). Variational Inference: A Review for Statisticians. J. of the American Statistical Association.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1534072.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

git编译安装报错

编译安装步骤 卸载旧的 yum -y remove gitcd /usr/local/src/wget https://www.kernel.org/pub/software/scm/git/git-2.15.1.tar.xztar -vxf git-2.15.1.tar.xzcd git-2.15.1make prefix/usr/local/git allmake prefix/usr/local/git installecho "export PATH$PATH:/usr…

c#中给winform定义快捷键的几种方式

快捷键的使用在日常的开发中频率比较高,这里总结了最常见的各种快捷键的设置方式,需要的时候大家直接照抄就可以了,不用再去查询如何实现了。 文章目录 一、按钮快捷键二、菜单快捷键三、全局快捷键1、重写ProcessCmdKey2、使用KeyPreview属…

操作系统的重点笔记-1

一、操作系统的设计目标 1.易用性 使计算机易于使用,提供文件抽象后,对文件的操作就是对磁盘的操作,不再需要考虑如何通过控制磁盘移动,实现对磁盘某个信号的读写细节 2.高效性 完成特定功能的效率,如时间效率&…

Golang | Leetcode Golang题解之第404题左叶子之和

题目: 题解: func isLeafNode(node *TreeNode) bool {return node.Left nil && node.Right nil }func sumOfLeftLeaves(root *TreeNode) (ans int) {if root nil {return}q : []*TreeNode{root}for len(q) > 0 {node : q[0]q q[1:]if no…

Win11 频繁蓝屏重启

一、问题描述 最近在使用笔记本的时候时不时的蓝屏重启,甚至重启完进系统立马蓝屏重启,还好我凭借快速的手速拍到了错误的原因,如下图所示。 失败的操作是Netwtw12.sys,查了一下这个错误是由于无线网卡导致的,经过测试…

全网最适合入门的面向对象编程教程:48 Python函数方法与接口-位置参数、默认参数、可变参数和关键字参数

全网最适合入门的面向对象编程教程:48 Python 函数方法与接口-位置参数、默认参数、可变参数和关键字参数 摘要: 在 Python 中,函数可以接受多种不同类型的参数,包括位置参数、默认参数、可变参数和关键字参数等,理解…

什么是交换机级联?

在现代计算机网络中,交换机级联是一种广泛应用的技术,有助于提升网络的扩展性和灵活性。本文将深入探讨交换机级联相关知识,详细介绍其基本概念和连接配置方法,并对常见技术问题进行解答。 交换机级联概述 交换机级联是指通过将…

聊点基础的,关于监控,关于告警(prometheus—+grafana+夜莺如何丝滑使用?)

事情的起因是这样的,昨天又群友在群里咨询一个关于grafana和prometheus配置文件的用法,整了半天也没回复,正好知道就帮了一把,今天整理成文章,希望帮到更多的朋友 大致问题的话就是图里面提到的几个,其实都…

webpack的热更新原理

Webpack热更新( Hot Module Replacement,简称 HMR),无需完全刷新整个页面的同时,更新所有类型的模块,是 Webpack 提供的最有用的功能之一。 保留在完全重新加载页面期间丢失的应用程序状态。只更新变更内容…

Qt_控件的QWidget属性介绍

目录 1、QWidget的核心属性 2、enabled 3、geometry 3.1 代码测试geometry 4、windowTitle 4.1 代码测试windowTitle 5、windowIcon 5.1 QIcon设置图标 5.2 qrc机制 5.3 代码测试windowIcon 6、windowOpacity 6.1 代码测试windowOpacity 7、cursor 7.1 代码测试…

多线程篇(线程池 - 整体介绍)(持续更新迭代)

目录 一、线程池(并发编程的艺术) 1. Java中的线程池 1.1. 线程池的实现原理 1.2 线程池的使用 1. 线程池的创建 2. 向线程池提交任务 3. 关闭线程池 4. 合理地配置线程池 5. 线程池的监控 1.3 本章小结 2. Executor框架 2.1 Executor框架简介…

2-93 基于matlab的无人机FMCW(频率调制连续波)毫米波高度计雷达仿真

基于matlab的无人机FMCW(频率调制连续波)毫米波高度计雷达仿真,不考虑环境杂波和收发信号隔离泄漏。通过考虑雷达天线、波束形成、信号传播、回波接收等环节影响。建立FMCW毫米波雷达系统的数学模型,评估无人机在不同高度下的高度…

Google推出Data Commons解决AI“幻觉”

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

LeetCode 热题 100 回顾12

干货分享,感谢您的阅读!原文见:LeetCode 热题 100 回顾_力code热题100-CSDN博客 一、哈希部分 1.两数之和 (简单) 题目描述 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标…

PCL 点云基于曲率大小渲染颜色

目录 一、概述 1.1原理 1.2实现步骤 1.3应用场景 二、代码实现 2.1关键函数 2.2完整代码 三、实现效果 3.1原始点云 3.2处理后点云 PCL点云算法汇总及实战案例汇总的目录地址链接: PCL点云算法与项目实战案例汇总(长期更新) 一、概…

突破行业边界,构建可持续未来:2024生态系统架构创新与开放标准赋能全球业务增长

在全球数字化浪潮的推动下,企业面临着前所未有的机遇与挑战。如何在动态市场中实现跨行业的合作、确保业务的连续性并推动可持续发展,成为了每个企业高管和技术领导者亟待解决的关键问题。生态系统架构与开放标准的结合,不仅能够打破传统行业…

力扣刷题--73. 矩阵置零【中等】

题目描述 给定一个 m x n 的矩阵,如果一个元素为 0 ,则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 算法分析 标签:标记数组 额外定义一个标记二维数组,用于存储matrix0存储的位置在哪里,如果是matrix…

Qt与Udp

(1)绑定端口 (2)广播 用udp实现广播通信_udp广播-CSDN博客 数据的发送是面向整个子网的,任何一台在子网中的计算机都可以接收到相同的数据。 如果一台机器希望向其他N台机器发送信息,这时候可以使用UDP的广播。 --------------- 广播地址&#xff1…

Apollo(阿波罗)架构由浅入深剖析

1.最简架构 如果不考虑分布式微服务架构中的服务发现问题,Apollo 的最简架构如下图所示: 注意事项: ConfigService 是一个独立的微服务,服务于 Client 进行配置获取。 Client 和 ConfigService 保持长连接,通过一种拖拉结合 (push & pull) 的模式,实现配置实时更新…

【OpenAPI】Spring3 集成 OpenAPI 生成接口文档

Spring3 集成 OpenAPI 生成接口文档 1. 依赖 Spring 版本&#xff1a;3.0.5 Java 版本&#xff1a;jdk21 OpenAPI 依赖&#xff1a; <!-- https://mvnrepository.com/artifact/org.springdoc/springdoc-openapi-starter-webmvc-ui --> <dependency><groupI…