GHuNeRF: Generalizable Human NeRF from a Monocular Video

研究背景

  1. 研究问题:这篇文章要解决的问题是学习一个从单目视频中泛化的人类NeRF模型。尽管现有的泛化人类NeRF已经取得了令人印象深刻的成果,但它们需要多视图图像或视频,这在某些情况下可能不可用。此外,一些基于单目视频的人类自由视点渲染工作无法泛化到未见过的身份。
  2. 研究难点:该问题的研究难点包括:如何在大规模人体运动中建模、如何在单目视频中有效地聚合跨帧信息、如何在训练和推理过程中提高效率。
  3. 相关工作:该问题的研究相关工作有:传统的3D人体重建方法、神经场景表示与渲染、神经辐射场(NeRF)及其在人体建模中的应用、以及现有的泛化人类NeRF方法。这些方法在多视图设置下取得了显著成果,但在单目视频设置下仍存在泛化问题。

研究方法

这篇论文提出了GHuNeRF,用于从单目视频中学习泛化的人类NeRF模型。具体来说,

1、可见性感知特征聚合:首先,提出了一种可见性感知特征聚合方案,以计算顶点级别的特征。由于遮挡问题,一个顶点在视频的某些帧中可能是可见的。通过考虑可见性信息,能够跨不同时间步收集有用的信息,从而补偿多视图信息的缺失。公式如下:

其中,vgvg​ 表示目标SMPL上的一个顶点,{v1,v2,...,vT}{v1​,v2​,...,vT​} 表示观测帧中对应的SMPL顶点,bibi​ 表示顶点vivi​的可见性。

2、基于注意力机制的时间对齐特征增强:由于SMPL顶点的稀疏性和体积分辨率的限制,基于SMPL顶点的特征体积只能表示人体的整体几何形状,但精度不足。为了解决这个问题,提出了一种基于注意力机制的时间对齐点特征增强方法。通过学习从目标帧到观测帧的变换映射,将目标空间中的3D采样点映射到观测帧中。公式如下: 

其中,popo​ 是目标空间中的3D采样点,TT 是基于SMPL的姿态参数和关节位置的变换矩阵,wgwg​ 是混合权重。

3、表面引导的点采样:为了提高训练和推理的效率,采用了一种表面引导的点采样策略。与原始NeRF中的随机采样不同,表面引导采样只在SMPL表面区域附近采样点,从而减少空空间中的不必要点数,并隐式地规范3D几何形状。

4、体积渲染:使用体积渲染技术为每个像素渲染RGB值。公式如下:

其中,NkNk​ 表示沿每条光线上的采样点数量,δkδk​ 是相邻采样点之间的距离。

实验设计

  1. 数据集:在ZJU-MoCap数据集和People-Snapshot数据集上进行了评估。ZJU-MoCap数据集包含9个动态人体视频,每个主体由21个同步相机捕获的多摄像机系统拍摄。People-Snapshot数据集包含单目视频,捕捉表演者在保持A姿势时旋转。
  2. 评估指标:采用峰值信噪比(PSNR)和结构相似性指数(SSIM)作为评估指标。
  3. 训练细节:使用Adam优化器进行训练,学习率为1e−41e−4,批量大小为1。训练和推理均使用512×512512×512的图像大小。在每个RTX 3090Ti GPU上进行训练,共训练500个epoch,每个epoch迭代500次。

结果与分析

1、ZJU-MoCap数据集:在ZJU-MoCap数据集上的定量结果显示,GHuNeRF在单目视频输入下达到了与多视图输入方法相当的性能。对于已见身份,GHuNeRF的PSNR为27.32,SSIM为0.936;对于未见身份,GHuNeRF的PSNR为24.55,SSIM为0.911。

2、People-Snapshot数据集:在People-Snapshot数据集上的定量结果显示,GHuNeRF在单目视频输入下显著优于NHP。对于未见身份,GHuNeRF的PSNR为23.20,SSIM为0.889。 

3、交叉数据集泛化:将People-Snapshot数据集上训练的模型直接应用于ZJU-MoCap数据集,交叉数据集泛化的PSNR为23.20,与在ZJU-MoCap数据集上训练的模型相当。

4、定性结果:定性结果显示,GHuNeRF能够生成高保真度的图像,并且在某些情况下比NHP生成更多细节。3D重建结果也显示,GHuNeRF能够预测更真实的3D人体形状。

总体结论

本文提出了GHuNeRF,用于从单目视频中学习泛化的人类NeRF模型。通过引入可见性感知特征聚合、时间对齐特征增强和表面引导的点采样策略,GHuNeRF在单目视频输入下实现了与多视图输入方法相当的性能。实验结果表明,GHuNeRF在ZJU-MoCap和People-Snapshot数据集上均表现出色,具有较高的泛化能力和高质量的渲染结果。

优点与创新

  1. 首次尝试:本文首次提出了从单目视频中学习通用人类NeRF模型的任务。
  2. GHuNeRF方法:提出了GHuNeRF方法,包括可见性感知体积特征聚合和时间对齐的特征增强,以跨视频帧聚合信息,用于自由视点图像合成。
  3. 性能表现:在ZJU-MoCap数据集上实现了与现有多视图视频方法相当的性能,并且在仅使用单目视频的情况下,性能优于现有工作。
  4. 表面引导采样策略:引入了表面引导采样策略,提高了训练和推理的效率,并通过假设远处区域为空空间来隐式规范3D几何形状。
  5. 多视角和单目训练:在多视角(MVT)和单目(MoT)设置下均进行了实验,验证了方法的有效性。

不足与反思

  1. 泛化能力有限:当训练和测试数据显著不同时,泛化能力仍然有限。
  2. 失败案例:在补充材料中展示了一些失败案例,例如在People-Snapshot数据集上训练的模型在ZJU-MoCap数据集上的预测颜色不正确。主要原因是两个数据集的光照条件差异显著,且People-Snapshot数据集中从未见过黄色衬衫。

创新点

1、GHuNeRF利用SMPL模型来构建特征体积,从而处理大规模人体运动。具体来说,GHuNeRF首先使用SMPL模型将每个顶点的特征表示从2D图像空间投影到目标空间的3D空间。然后,通过SparseConvNet将顶点级别的特征扩散到附近的3D空间,形成一个特征体积。这个特征体积虽然能够表示人体的整体几何形状,但由于SMPL顶点的稀疏性和体积分辨率的限制,其精度不足。为了提高精度,GHuNeRF进一步通过注意力机制将时间对齐的点特征与体积特征融合,从而增强特征体积的表示能力。

2、GHuNeRF中的可见性感知特征聚合方案通过考虑顶点的可见性信息来计算顶点级别的特征。具体来说,对于目标SMPL上的每个顶点vgvg​,其特征表示是通过聚合观测帧中对应顶点的特征F(vi)F(vi​)得到的,其中bibi​表示顶点vivi​的可见性。

3、GHuNeRF采用了表面引导的点采样策略来提高训练和推理的效率。具体来说,与原始NeRF中的随机采样不同,表面引导采样只在SMPL表面区域附近采样点,从而减少空空间中的不必要点数,并隐式地规范3D几何形状。此外,GHuNeRF还通过使用ResNet18提取图像特征,并使用SparseConvNet进行特征扩散和注意力机制增强,进一步优化了网络结构和计算效率。实验结果表明,这些策略显著提高了GHuNeRF的训练和推理效率,同时在合成图像和3D人体重建的质量上也表现出色。

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1820.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

中聚企服:打造智能企业服务助手,“中聚AI”解答一切企业难题

近日,一款专为企业用户设计的智能问答助手——“中聚AI”正式亮相市场。这款AI由中产聚融有限公司旗下的中聚企服团队自主研发,旨在帮助企业用户快速、高效地解答经营过程中的各种难题,覆盖从公司注册、财税规划到知识产权和资质办理等多领域…

手把手教你轻松掌握~Air780E软件UDP应用示例!快来看!

还不会的小伙伴看过来!通过本文的介绍,相信大家已经掌握了Air780E模组UDP应用的基本操作和常见问题的解决方法。赶快动手实践吧,让你的项目更加高效稳定! 1、UDP概述 UDP(用户数据报协议,UserDatagramProt…

Win10搭建SFTP服务器

1、下载安装 Release v9.5.0.0p1-Beta PowerShell/Win32-OpenSSH GitHub 下载OpenSSH-Win64.zip 解压之后放入到:C:\Program Files (x86)\OpenSSH-Win64以管理员身份打开CMD进入到 C:\Program Files (x86)\OpenSSH-Win64 文件夹执行命令 powershell.exe -Exec…

1分钟解决Excel打开CSV文件出现乱码问题

一、编码问题 1、不同编码格式 CSV 文件有多种编码格式,如 UTF - 8、UTF - 16、ANSI 等。如果 CSV 文件是 UTF - 8 编码,而 Excel 默认使用的是 ANSI 编码打开,就可能出现乱码。例如,许多从网络应用程序或非 Windows 系统生成的 …

构建灵活、高效的HTTP/1.1应用:探索h11库

文章目录 构建灵活、高效的HTTP/1.1应用:探索h11库背景这个库是什么?如何安装这个库?库函数使用方法使用场景常见的Bug及解决方案总结 构建灵活、高效的HTTP/1.1应用:探索h11库 背景 在现代网络应用中,HTTP协议是基础…

【算法】C++深度优先搜索(DFS)全解析

📢博客主页:https://blog.csdn.net/2301_779549673 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正! 📢本文由 JohnKi 原创,首发于 CSDN🙉 📢未来很长&#…

汽车免拆诊断案例 | 2010款起亚赛拉图车发动机转速表指针不动

故障现象  一辆2010款起亚赛拉图车,搭载G4ED 发动机,累计行驶里程约为17.2万km。车主反映,车辆行驶正常,但组合仪表上的发动机转速表指针始终不动。 故障诊断  接车后进行路试,车速表、燃油存量表及发动机冷却温度…

【环境搭建】Apache ZooKeeper 3.8.4 Stable

软件环境 Ubuntu 20.04 、OpenJDK 11 OpenJDK 11(如果已经安装,可以跳过这一步) 安装OpenJDK 11: $ sudo apt-get update$ sudo apt-get install -y openjdk-11-jdk 设置 JAVA_HOME 环境变量: $ sudo gedit ~/.bash…

solid works下载

软件安装包下载解压打开 将软件安装包下载到电脑本地,使用解压工具进行解压打开(下载解压安装全程关闭杀毒软件及防火墙) 打开Crack文件夹 打开Crack文件夹进去 复制SolidWorks_Flexnet_Server文件夹 复制SolidWorks_Flexnet_Server文件夹到…

硅谷甄选(10)用户管理

用户管理模块 9.1 静态搭建 主要是el-form、el-pagination <template><el-card style"height: 80px"><el-form :inline"true" class"form"><el-form-item label"用户名:"><el-input placeholder"请…

C语言-详细讲解-打印各种三角形矩阵

目录 1.字符三角形 2. 直角三角形&#xff08;1&#xff09; 3.直角三角形&#xff08;2&#xff09; 4. 打印乘法口诀表 1.字符三角形 入门级&#xff0c;熟悉输入与输出 #include<stdio.h> int main() {char i;scanf("%c",&i);printf(" %c…

图像的特征类别

一 图像的特征类别 1.自然特征 ①光谱特征 ②几何特征 ③时相特征 2.人工特征 ①直方图特征 ②灰度边缘特征 ③线、角点、纹理特征 图像的特征有很多&#xff0c;按提取特征的范围大小又可分为&#xff1a; ①点特征 仅由各个像素就能决定的性质。如单色图像中的灰度值、彩色…

MYSQL--完整性约束

目录 约束 设置约束 方式一 推荐&#xff1a;方式二 删除约束 主键约束 自增列 组合主键, 联合主键 外键约束 给表添加外键约束 注意: 约束 概念&#xff1a;约束是作用于表中字段上的规则&#xff0c;用于限制存储在表中的数据。 目的&#xff1a;保证数据库中数据的正…

线程池面试点

为什么使用线程池&#xff1f;线程池的作用是什么&#xff1f;线程池的执行顺序&#xff1f;线程池的入参是哪些&#xff1f;分别代表什么意思&#xff1f; 频繁的创建线程与销毁线程,资源耗费与上下文切换时间开销非常大,而线程池可以避免这种情况. 入参有核心线程数,最大线…

IDEA安装(AI)MarsCode插件

1. 注册MarsCode点击注册MarsCode账号 2. 安装MarsCode 第一步: 打开IDEA设置页面, File -> Settings… 第二步: 在左侧导航栏中选择 “Plugins”, 在 “Marketplace” 中搜索"mars", 如图, 点击 “Installed” 第三步: 插件安装完成后, 重启IDEA. 点击右侧导航栏…

软考高项比中项在难度上高多少?

论文这一科难倒了70%的考生&#xff0c;再加上30%的项目管理技能运用知识&#xff0c;使得考生们感到困难重重。题主提到的高额培训费主要是因为论文这一科目的难度较大。虽然直接考取高级资格是理想状态&#xff0c;但有些人可能无法一次成功&#xff0c;因此可以先考取中级资…

飞腾平台Arm ComputeLibrary编译安装指南

【写在前面】 飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力&#xff0c;聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域&#xff0c;包含了应用使能套件、软件仓库、软件支持、软件适…

【数据结构】堆:建堆/向下调整/上向调整/堆排序/TOK问题

文章目录 前言堆的定义1.大小堆2.完全二叉树 堆的实现堆的数据结构初始化销毁取堆顶元素判断堆是否为空父结点和子结点下标关系&#xff08;重要&#xff09; 向下调整法-O(n)小堆版大堆版 向上调整法-nlog(n)堆的插入和删除插入(调用向上调整)删除(调用向下调整) 构建最大堆向…

Qt第三课 ----------输入类的控件属性

作者前言 &#x1f382; ✨✨✨✨✨✨&#x1f367;&#x1f367;&#x1f367;&#x1f367;&#x1f367;&#x1f367;&#x1f367;&#x1f382; ​&#x1f382; 作者介绍&#xff1a; &#x1f382;&#x1f382; &#x1f382; &#x1f389;&#x1f389;&#x1f389…

java面试2.0

一.Zookeeper 1.定义 ZooKeeper 是一个开源的分布式协调服务&#xff0c;它的设计目标是将那些复杂且容易出错的分布式一致性服务封装起来&#xff0c;构成一个高效可靠的原语集&#xff0c;并以一系列简单易用的接口提供给用户使用。 ZooKeeper 为我们提供了高可用、高性能…