阿里新发布的UniAnimate现高效人像动画生成;在ComfyUI中使用Stable 3模型;音频版的gpt2o;将 PDF 文档转换为音频播客

✨ 1: UniAnimate

阿里新发布的UniAnimate通过统一的视频扩散模型,实现高效人像动画生成,支持长视频生成

在这里插入图片描述

UniAnimate 是一种专注于一致性人像动画生成的统一视频扩散模型。该模型通过映射参考图像、姿势指导和噪声视频到一个共同特征空间,实现了高效且一致的长时视频生成。UniAnimate 的主要特点包括:

共同特征空间映射:利用统一的视频扩散模型,将参考图像、姿势指导和噪声视频映射到一个共同特征空间,减少了优化难度并确保了时间上的一致性。
统一噪声输入:支持随机噪声和基于第一帧的噪声输入,增强了长时间视频生成的能力。
高效的时间建模架构:使用基于状态空间模型的时间建模架构,替代原来计算消耗较大的时间 Transformer。

地址:https://github.com/ali-vilab/UniAnimate

✨ 2: ComfyUI Stable Diffusion 3 API

ComfyUI Stable Diffusion 3 API让你通过接口在ComfyUI中使用Stable 3模型。

在这里插入图片描述

ComfyUI Stable Diffusion 3 API 是将 Stable Diffusion 3 引入 ComfyUI 的工具。利用 API,用户可以通过 ComfyUI 访问和使用 Stable Diffusion 3 的模型生成图像。目前提供两种模型选择:SD3 和 SD3 Turbo,且不同模型在积分消耗上有所不同。该 API 提供了多种比例和模式以满足不同的生成需求。

地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-StableDiffusion3-API

✨ 3: Building GPT2o

构建生成音频的GPT2模型的方法和过程

在这里插入图片描述

从头开始构建一个能生成音频的GPT-2模型的过程。受到Andrej’s “Let’s Reproduce GPT-2” 的启发,作者希望创建一个类似于OpenAI的GPT-4o或AudioPaLM的自动回归生成音频的模型,而且最好在普通消费者硬件上训练。

音频标记化
使用SNAC(一个分层结构的音频离散标记化模型),将音频转换为离散标记。这种方法效果很好,几乎无法分辨原音频和重建音频之间的差别。作者利用SNAC模型和教程,创建了一个能将音频转换为离散标记的标记化工具,以供语言模型训练。

数据集
作者错过了LIAON的预标记化数据集,因此使用了来自Librivox的公共领域录音《福尔摩斯历险记》。这些音频总时长约12小时,相当于约150万个SNAC标记,并将其上传至Hugging Face。

训练与推理
训练代码与Andrej的原始代码几乎无异,只做了一些小的修改,如数据处理脚本、上下文长度、批次大小和词汇表大小等。尽管作者在分布式数据并行(DDP)版本中遇到问题,但在Colab上可以在一两个小时内得到一个能生成音频的模型。不过模型过拟合,大多数时间生成的音频是乱码。本文仅展示了概念验证,作者相信更多数据和计算资源能提升模型性能。

代码:https://github.com/nivibilla/build-nanogpt/tree/audio
模型:https://huggingface.co/eastwind/gpt2-audio-tiny-sherlock-5k-overfit
数据:https://huggingface.co/datasets/eastwind/tiny-sherlock-audio

地址:https://medium.com/@nivibilla/building-gpt2o-part-1-audio-65b66e193784

✨ 4: midGPT

midGPT是一个基于Jax和Equinox的可实验性LLM预训练仓库,支持大型模型跨多设备训练。

在这里插入图片描述

MidGPT 是一个用于 LLM(大型语言模型)预训练实验的简单且可扩展的代码库,基于 Jax 和 Equinox 构建。该代码库能够在 TPUs 或 GPUs 上训练具有数十亿参数的 GPT风格的解码器-仅 Transformers 模型。

MidGPT 受 NanoGPT 启发,但支持多设备和多主机的 FSDP(全栈数据并行),从而可以训练更大的模型。它还包括了一些最近的 Transformer 改进:旋转嵌入(rotary embeddings)、RMSNorm、QK-Layernorm 和独立权重衰减,能够在更大规模的训练中提高性能或稳定性。

地址:https://github.com/AllanYangZhou/midGPT

✨ 5: PDF to Podcast

PDF 转播客工具将 PDF 文档转换为音频播客,可以生成对话结构的 MP3 文件。

在这里插入图片描述

PDF to Podcast 项目是一款工具,可以将任何PDF文档转换成播客节目!通过使用OpenAI的文字转语音模型和Google Gemini,该工具处理PDF内容,生成适合音频播客的自然对话,并将其输出为MP3文件。

地址:https://github.com/knowsuchagency/pdf-to-podcast



更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1452062.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

「动态规划」如何求最大子数组和?如何求环形子数组的最大和?

53. 最大子数组和https://leetcode.cn/problems/maximum-subarray/description/ 给你一个整数数组nums,请你找出一个具有最大和的连续子数组(子数组最少包含一个元素),返回其最大和。子数组是数组中的一个连续部分。 输入&#…

Studio One软件最新版下载及详细安装教程

Studio One 6是一款功能丰富、专业级的音乐制作软件,它具备灵活的工作流程和高效的团队协作能力,能帮助用户实现高质量的音乐创作和制作。 智能模板更快的启动,全新的智能模板为你手头的任务提供了必要的工具集,包括基本录制、混音…

这世上又多了一只爬虫(spiderflow)

让我们一起默念: 爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫 接着大声喊出来: 一!只!爬!虫!呀!爬!呀!爬&#xf…

HTMLCSS详细总结(提高版)

HTML5的新特性 1. HTML5 新增的语义化标签 <div class“header”> </div> <div class“nav”> </div> <div class“content”> </div> <div class“footer”> </div> <header>&#xff1a;头部标签<nav>&#…

教师人才引进需要什么条件

在这个竞争激烈的时代&#xff0c;学校和教育机构都在寻求优秀的教育工作者&#xff0c;以提升教学口碑和学生的学习体验。而引进教师人才可并非易事&#xff0c;涉及到多方面的考量。 专业素养。一个优秀的教师需要具备扎实的专业知识和教育理论&#xff0c;能够不断更新自己的…

【算法专题--链表】反转链表II--高频面试题(图文详解,小白一看就会!!!)

目录 一、前言 二、题目描述 三、解题方法 ⭐迭代法 --- 带哨兵位&#xff08;头节点&#xff09; &#x1f95d; 什么是哨兵位头节点&#xff1f; &#x1f34d; 解题思路 四、总结与提炼 五、共勉 一、前言 反转链表II这道题&#xff0c;可以说是--链表专题--&am…

深入学习Java `synchronized` 关键字

深入学习Java synchronized 关键字 synchronized关键字通过确保在同一时间只有一个线程可以执行某个代码块&#xff0c;从而防止多个线程同时访问共享资源时发生数据不一致的问题。 修饰方法 当synchronized用于修饰实例方法时&#xff0c;表示当前实例对象是同步锁。这意味…

内网安全【2】-域防火墙

1.判断什么时候用代理 2.判断什么时候用隧道 3.判断出网和不出网协议 4.如何使用代理建立节点并连接 5.如何使用隧道技术封装协议上线 6.判断哪些代理或隧道情况选择放弃 代理技术&#xff1a;解决网络通讯不通的问题(利用跳板机建立节点后续操作)&#xff08;网络设置导…

操作系统复习-线程同步

互斥量 两个线程的指令交叉执行互斥量可以保证先后执行称为原子性 原子性是指一系列操作不可被中断的特性这一系列操作要么全部执行完成&#xff0c;要么全部没有执行不存在部分执行部分未执行的情况 互斥锁 互斥量是最简单的线程同步的方法互斥锁&#xff0c;处于两态之一的…

el-table表头文字换行或者修改字体颜色样式

例如 <el-table:data"tableData":header-cell-style"headClass" style"width: 100%;" border ><el-table-columnprop"address"label"生产工序"align"center"></el-table-column> //重点看这里…

经典的带环链表问题(链表补充)

环形链表1 运用快慢指针的方法&#xff0c;fast ,slow从头节点出发&#xff0c;快指针走两步&#xff0c;慢指针走一步&#xff0c;若有环&#xff0c;快指针先进环&#xff0c;后续如果慢指针和快指针相遇&#xff0c;则链表带环。转换成了追击问题。 struct ListNode {int v…

誉天5月红帽战报:恭喜14名学员通过RHCE认证,通过率87.5%!

红帽认证是全球公认的Linux权威认证之一&#xff0c;对于Linux从业者来说具有很高的价值和认可度。旨在评估考生在Linux系统管理和应用方面的专业知识和技能。红帽考试是Linux从业者提升自身技能水平和职业竞争力的重要途径之一。 5月份&#xff0c;誉天14名学员通过了RHCE认证…

Flask快速入门2(请求扩展、CBV装饰器、闪现、g对象、蓝图、wtforms)

Flask快速入门 目录 Flask快速入门请求扩展before_requestafter_requestteardown_requesterrorhandler CBV加装饰器闪现(Flash)示例 g对象蓝图(blueprint)wtforms 请求扩展 常用的请求扩展&#xff1a; before_requestafter_requestteardown_requesterrorhandler before_req…

Stable-Diffusion-WebUI 常用提示词插件

SixGod提示词插件 SixGod提示词插件可以帮助用户快速生成逼真、有创意的图像。其中包含&#xff0c;清空正向提示词”和“清空负向提示词、提示词起手式包含人物、服饰、人物发型等各个维度的提示词、一键清除正面提示词与负面提示词、随机灵感关键词、提示词分类组合随机、动…

【GD32F303红枫派使用手册】第十六节 USART-DMA串口收发实验

16.1 实验内容 通过本实验主要学习以下内容&#xff1a; 串口DMA工作原理 使用DMA进行串口收发 16.2 实验原理 16.2.1 串口DMA工作原理 在前面ADC章节中&#xff0c;我们介绍了DMA的工作原理&#xff0c;这里就不多做介绍。从GD32F303用户手册中可以查到&#xff0c;各串…

四轴飞行器、无人机(STM32、NRF24L01)

一、简介 此电路由STM32为主控芯片&#xff0c;NRF24L01、MPU6050为辅,当接受到信号时&#xff0c;处理对应的指令。 二、实物图 三、部分代码 void FlightPidControl(float dt) { volatile static uint8_t statusWAITING_1; switch(status) { case WAITING_1: //等待解锁 if…

波卡近期活动一览| Polkadot Decoded 2024 重磅来袭,300 万 DOT 将用于 DeFi 增长

Polkadot 生态近期活动精彩纷呈&#xff0c;线上线下火热进行中&#xff01;此外&#xff0c;Polkadot 2.0 的关键升级即将到来&#xff0c;Gavin Wood 博士也将在最新访谈节目中分享更多关于波卡的未来发展蓝图。波卡 DAO 通过提案&#xff0c;分配 300 万 DOT 支持 DeFi 生态…

12.容器间的互联(--link 是单方向的!!!)

容器间的互联&#xff08;–link 是单方向的&#xff01;&#xff01;&#xff01;&#xff09; –link意思就是链接容器进行通信 用法&#xff1a;--link 容器名字:随意设置别名&#xff1b;例如&#xff1a;--link nginx:nginx 注释&#xff1a;同一个容器中&#xff0c;可…

动态功能连接评估方法的变异性

摘要 背景&#xff1a;动态功能连接(dFC)已成为理解大脑功能的一种重要测量指标。虽然已经开发了各种各样的方法来评估dFC&#xff0c;但目前尚不清楚方法的选择会如何影响结果。在这里&#xff0c;本研究旨在考察常用dFC方法的结果变异性。 方法&#xff1a;本研究在Python中…

公司面试题总结(六)

31.说一说 webpack 的构建流程是什么&#xff1f; ⚫ 初始化流程&#xff1a; ◼ 从配置文件和 Shell 语句中读取与合并参数 ◼ 初始化需要使用的插件和配置插件等执行环境所需要的参数 ⚫ 编译构建流程&#xff1a; ◼ 从 Entry 发出&#xff0c;针对每个 Module 串行…