[大语言模型-论文精读] MoRAG - 基于多部分融合的检索增强型人体动作生成

MoRAG--Multi-Fusion Retrieval Augmented Generation for Human Motion

KS Shashank, S Maheshwari, RK Sarvadevabhatla - arXiv preprint arXiv:2409.12140, 2024

MoRAG - 基于多部分融合的检索增强型人体动作生成

1.

目录

MoRAG--Multi-Fusion Retrieval Augmented Generation for Human Motion

1. 摘要

创新点

算法模型

实验效果

结论

推荐阅读指数:★★★★☆


摘要

本文介绍了一种新颖的基于多部分融合的检索增强型文本驱动人体动作生成策略,名为MoRAG。该方法通过改进的运动检索流程来增强运动扩散模型,利用额外的知识来提升生成和检索任务的质量。通过有效提示大型语言模型(LLMs),解决了运动检索中的拼写错误和改写问题。本方法采用多部分检索策略,提高了运动检索在语言空间的泛化能力。通过空间组合检索到的动作,创建了多样化的样本。此外,通过使用低层次的、特定部分的运动信息,我们可以为未见过的文本描述构建运动样本。实验表明,我们的框架可以作为插件模块,提高运动扩散模型的性能。

论文研究背景

技术背景: 文本驱动的人体动作生成是计算机视觉和自然语言处理交叉领域的一个研究热点。近年来,随着深度学习技术的发展,尤其是大型语言模型和生成模型的突破,该领域取得了显著的进展。

发展历史: 早期的工作主要集中在使用编码器-解码器架构来生成动作序列。后来,随着变分自编码器和生成对抗网络的发展,研究者们开始探索使用这些模型来生成更精细、更真实的动作序列。最近,基于扩散模型的方法因其能够生成高质量、高分辨率的动作序列而受到关注。

技术挑战

  • 如何处理复杂的文本描述,尤其是那些训练数据中未出现过的描述。
  • 如何提高生成动作的多样性和真实感。
  • 如何有效地检索和利用与文本描述相关的运动信息。

创新点

  1. 提出了一种新的多部分融合的检索增强型动作生成框架(MoRAG),通过整合特定部分的运动检索模型与大型语言模型来提高生成任务的性能。
  2. 使用多部分检索策略来提高运动检索在语言空间的泛化能力。
  3. 通过空间组合检索到的动作来创建多样化的样本。
  4. 利用低层次的、特定部分的运动信息,为未见过的文本描述构建运动样本

算法模型

  • MoRAG框架:通过整合特定部分的运动检索模型与大型语言模型,来提升文本描述驱动的动作生成质量。
  • 部分特定描述生成:使用LLM生成针对特定身体部分(如躯干、手、腿)的动作描述。
  • 多部分运动检索:独立训练针对不同身体部分的运动检索模型,以检索与文本描述相对应的动作序列。
  • 空间动作组合:将检索到的部分动作序列组合成全身动作序列,以用于动作生成模型的附加条件。

实验效果

  • 定性分析:MoRAG在处理复杂或未见过的文本描述时,展现出更好的泛化能力。
  • 定量分析:与现有的扩散模型相比,在多样性、多模态距离和多模态性能方面取得了更好的结果。
  • 重要数据
    • 精确度:在top-1、top-2和top-3的召回率上,MoRAG均优于其他方法。
    • FID:在生成动作的Fréchet Inception Distance(FID)上,MoRAG达到了更低的值,表明生成的动作与真实动作更接近。
    • 多样性:MoRAG在生成动作的多样性上优于现有技术。

结论

MoRAG通过使用多部分融合策略,显著提高了文本到人体动作生成的性能。该方法不仅能够处理典型的输入条件,还能有效处理复杂或未见过的输入,提高了模型的泛化能力。

推荐阅读指数:★★★★☆

推荐理由
- 本文提出了一种创新的人体动作生成方法,通过结合检索增强型生成策略,提高了模型对文本描述的理解和生成动作的准确性。
- 实验结果表明,MoRAG在处理复杂文本描述和提升动作生成多样性方面具有显著优势。

代码:
Motion-RAG/MoRAG: A framework for text-based retrieval augmented motion generation (github.com)
------------------------------------------
如果您对我的博客内容感兴趣,欢迎三连击( 点赞,关注和评论 ),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更及时地了解前沿技术的发展现状。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1545255.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

5.使用 VSCode 过程中的英语积累 - Go 菜单(每一次重点积累 5 个单词)

前言 学习可以不局限于传统的书籍和课堂,各种生活的元素也都可以做为我们的学习对象,本文将利用 VSCode 页面上的各种英文元素来做英语的积累,如此做有 3 大利 这些软件在我们工作中是时时刻刻接触的,借此做英语积累再合适不过&a…

mysql怎么让字段从1开始自增?

mysql怎么让字段从1开始自增? 要确保一个 AUTO_INCREMENT 字段从1开始自增,你需要在创建表的时候指定 AUTO_INCREMENT 的起始值为1, 或者在表创建之后手动设置 AUTO_INCREMENT 的值。 1.创建表时指定 当你创建表的时候,可以直接…

win10开机自启动方案总汇

win10开机自启动方案总汇 一、开始文件目录添加二、添加注册表启动程序三、服务启动3.1. 将程序注册为服务使用命令行创建服务设置服务启动类型启动服务 3.2. 使用 Windows 服务管理器配置服务3.3. 删除服务 四、定时任务或程序4.1 设置程序自启动(使用任务计划程序…

读构建可扩展分布式系统:方法与实践14流处理系统

1. 流处理系统 1.1. 时间就是金钱 1.1.1. 从数据中提取有价值的知识和获得洞见的速度越快,就能越快地响应系统所观察的世界的变化 1.1.2. 信用卡欺诈检测 1.1.3. 网络安全中异常网络流量的捕获 1.1.4. 在支持GPS的驾驶应用程序中进行的实时路线规划 1.1.5. 社交…

误删系统引导如何恢复?如何创建系统引导?

Default Boot Device Missing or Boot Fai led.Insert Recovery Media and Hit any keyThen Select “Boot Manager’ to choose a new Boot Device or to Boot Recovery Media 一、事出原因: 同事强迫症格式化所有系统引导盘后,重装系统后无法开机问题…

cpu的运行进程

我们知道在Linux之中有一个runqueue, 里面有很多内容,但是我们只需要关心红色和蓝色的地方就行。 我们简单理解为蓝色和红色部分其实事被封装成为一个struct queue,然后由array管理两个结构体。 而两个封装的结构体就是cpu能完成优先又公平的…

9.创新与未来:ChatGPT的新功能和趋势【9/10】

创新与未来:ChatGPT的新功能和趋势 引言 在探讨人工智能的发展历程时,我们可以看到它已经从早期的图灵机和人工神经网络模型,发展到了今天能够模拟人类智能的复杂系统。人工智能的起源可以追溯到20世纪40年代,而它的重要里程碑包…

简单了解Redis(初识阶段)

1.认识Redis 对于Redis有一个很重要的点就是,它存储数据是在内存中存储的。 但是对于单机程序,直接通过变量存储数据的方式是更优的,在分布式系统下 Redis才能发挥威力 因为进程是有隔离性的,Redis可以基于网络,把进…

Lesson1 MySQL的安装(环境为CentOS云服务器)

卸载内置环境 我们初期使用root账号,后期再切换成普通账号 使用 ps axj | grep mysql 查看系统中是否有MySQL相关的进程 使用 systemctl stop mysqld 关停进程 使用 rpm -qa | grep mysql 查看MySQL相关的安装包 使用 rpm -qa | grep mysql | xargs yum -y remo…

计算机毕业设计非遗项目网站 登录注册搜索 评论留言资讯 前后台管理/springboot/javaWEB/J2EE/MYSQL数据库/vue前后分离小程序

遗项目网站需求,以下是一个基于Spring Boot、Java Web、J2EE技术栈,使用MySQL数据库,并结合Vue实现前后端分离的简要设计方案: 系统功能概述 ‌用户登录与注册‌:实现用户的注册、登录功能,确保用户信息的…

【Docker】解决Docker Engine stopped

解决Docker Engine stopped 解决Docker Engine stopped1.检查虚拟设置2 安装wslwindows安装wsl 解决Docker Engine stopped 在安装完docker之后不少用户会遇到Docker Engine stopped。下面就下给出解决方法让docker正常运行起来 1.检查虚拟设置 打开任务管理器查看cpu页面&a…

华为全联接大会HUAWEI Connect 2024印象(五):讯飞星火企业级智能体平台

在HC大会上,除了有华为自己的产品,还有很多合作伙伴的产品,今天就简单说一下讯飞星火的企业级智能体平台。讯飞星火此次在HC上有多个展台。我以前是讯飞星火的拥泵,在B站发过视频介绍其API的使用(利用API访问讯飞星火认…

PR视频剪辑工具全指南:开启专业剪辑之旅

pr视频剪辑可以说是视频剪辑里的一把好手,就是如果你想在这方面深耕那还是掌握这个工具的使用比较方便。如果你只是刚入门,那也有不少可以快速帮你剪辑出片的工具。这次我介绍几款我用过的视频剪辑工具,助你开启视频剪辑大门。 1.福昕视频剪…

构建预测睡眠质量模型_相关性分析,多变量分析和聚类分析

数据入口:睡眠质量记录数据集 - Heywhale.com 本数据集目的是探究不同因素是如何影响睡眠质量和整体健康的。 数据说明 字段说明Heart Rate Variability心率变异性:心跳时间间隔的模拟变化Body Temperature体温:以摄氏度为单位的人工生成体…

深度学习(2):梯度下降

文章目录 梯度下降梯度是什么常见梯度下降算法 代码实现批量梯度下降 梯度下降 梯度是什么 类似y ax b这种单变量的函数来说,导数就是它的斜率,这种情况下可以说梯度就是导数。 但在多变量函数中,梯度是一个向量,其分量是各个…

时间序列LSTM实现

这个代码参考了时间序列预测模型实战案例(三)(LSTM)(Python)(深度学习)时间序列预测(包括运行代码以及代码讲解)_lstm预测模型-CSDN博客 结合我之前所学的lstm-seq2seq里所学习到的知识对其进行预测 import time import numpy as np import pandas as pd import torch import…

STM32F407之超声波模块使用

#include "sys.h" #include "delay.h" #include "usart.h" #include "includes.h" #include "HC_SR04.h"int main() {OS_ERR err;//错误uart_init(9600);//串口初始化//超声波初始化HC_SR04();//OS初始化 他是第一个运行的函…

Karmada新版本发布,支持联邦应用跨集群滚动升级

摘要:本次升级支持联邦应用跨集群滚动升级,使用户版本发布流程更加灵活可控;透明同事karmadactl 新增了多项运维能力,提供独特的多集群运维体验。 本文分享自华为云社区 《Karmada v1.11 版本发布!新增应用跨集群滚动升…

nfs版本问题导致挂载失败

一、系统环境 环境版本操作系统Linux Mint 22 Wilma内核版本6.8.0-44-genericgcc 版本arm-none-linux-gnueabihf-gcc (GNU Toolchain for the A-profile Architecture 9.2-2019.12 (arm-9.10)) 9.2.1 20191025uboot 版本2020.01开发板Linux版本5.4.31 二、问题描述 内核通过…

Unity开发绘画板——03.简单的实现绘制功能

从本篇文章开始,将带着大家一起写代码,我不会直接贴出成品代码,而是会把写代码的历程以及遇到的问题、如何解决这些问题都记录在文章里面,当然,同一个问题的解决方案可能会有很多,甚至有更好更高效的方式是…