GitHub 上高星 AI 开源项目推荐

FIFO-Diffusion

  1. 介绍:FIFO-Diffusion 是一个创新的开源项目,它能够基于文本描述生成无限长度的高品质视频,而无需任何预先的模型训练。这一技术的核心在于其高效的内存管理策略和先进的扩散模型,使得即使是小型GPU配置也能轻松应对任务,极大扩展了创作者的可能性空间。
  2. GitHub星数:337
  3. GitHub地址:https://github.com/jjihwan/FIFO-Diffusion_public
    在这里插入图片描述

AniTalker

  1. 介绍:AniTalker 是一个由上海交通大学 X-LANCE 实验室和思必驰 AISpeech 的研究人员共同开发的创新框架,它能够将单张静态人像和输入的音频转换成栩栩如生的动画对话视频。这个框架通过自监督学习策略捕捉面部的复杂动态,包括微妙的表情和头部动作。AniTalker 利用通用运动表示和身份解耦技术,减少了对标记数据的依赖,同时结合扩散模型和方差适配器,生成多样化和可控制的面部动画。
  2. GitHub星数:1.4k
  3. GitHub地址:https://github.com/X-LANCE/AniTalker
    在这里插入图片描述

VoiceCraft

  1. 介绍:VoiceCraft 是一个由德克萨斯大学奥斯汀分校的研究团队开发的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构,通过创新的token重排过程,结合因果掩蔽和延迟叠加技术,可零样本实现在现有音频序列内的高效生成。VoiceCraft在多种口音、风格和噪声条件下的语音编辑和TTS任务上展现出卓越性能,生成的语音自然甚至难以与原声区分。
  2. GitHub星数:7.5k
  3. GitHub地址:https://github.com/jasonppy/VoiceCraft
    在这里插入图片描述

FarFalle

  1. 介绍:是一个开源的 AI 问答引擎,支持本地部署,并且可以与大型语言模型(LLM)如 llama3, gemma, mistral, phi3 等配合使用。它还支持云模型,如 Groq/Llama3, OpenAI/gpt4-o。Farfalle 提供了 Docker 和 Ollama 部署的支持,并且可以使用多个搜索提供商。用户需要下载支持的模型,并启动 Ollama 服务器。它还提供了获取 API 密钥的指南,并且有一个在线地址和项目地址 。
  2. GitHub星数:2.6k
  3. GitHub地址:https://github.com/rashadphz/farfalle
    在这里插入图片描述

AnimateAnyone

  1. 介绍:AnimateAnyone 是由阿里巴巴智能计算研究院推出的一款开源框架,它能够将静态图像中的角色或人物进行动态化,生成高质量的动态视频。该框架在扩散模型的基础上,引入了 ReferenceNet、Pose Guider 姿态引导器和时序生成模块等技术,以实现照片动起来时保持一致性、可控性和稳定性。
  2. 论文地址:https://arxiv.org/pdf/2311.17117
  3. GitHub星数:14.4k
  4. GitHub地址:https://humanaigc.github.io/animate-anyone/
    在这里插入图片描述

Insanely Fast Whisper

  1. 介绍:基于 OpenAI 的 Whisper 模型,并结合了 Hugging Face 的 Transformers 库、Optimum 库以及 Flash Attention 技术,提供了极快的音频转录速度。这个项目的目标是利用设备端的命令行界面(CLI)来转录音频文件,能够在极短的时间内完成大量音频的转录任务。
  2. GitHub星数:7.4k
  3. GitHub地址:https://github.com/Vaibhavs10/insanely-fast-whisper
    在这里插入图片描述

MLX

  1. 介绍:MLX 是一个专为苹果芯片设计的机器学习数组框架,由 Apple 的机器学习研究团队开发。它旨在提供一个既简单易用又高效的研究环境,让研究人员能够快速探索和实现新的算法思想。MLX 的设计灵感来源于 NumPy、PyTorch、Jax 以及 ArrayFire 等知名库,并在此基础上进行了创新和优化。
  2. GitHub星数:16.5k
  3. GitHub地址:https://github.com/ml-explore/mlx
    在这里插入图片描述

GPT-SoVits

  1. 介绍:GPT-SoVITS 是一个开源的声音克隆项目,由 RVC 变声器创始人“花儿不哭”与 AI 音色转换技术 Sovits 开发者 Rcell 联合开发。这个工具结合了 GPT(Generative Pre-trained Transformer)模型和 SoVITS 变声器技术,能够通过少量的样本数据实现高质量的语音克隆和文本到语音转换(TTS)。它特别适合需要快速生成特定人声的场景,能够在没有或只有少量目标说话人语音样本的情况下,训练出能够模仿该说话人声音的模型。
  2. GitHub星数:32.8k
  3. GitHub地址:https://github.com/RVC-Boss/GPT-SoVITS
    在这里插入图片描述

Umi-OCR

  1. 介绍:Umi-OCR 是一款免费、开源的离线OCR软件,它基于 PaddleOCR 技术构建,适用于 Windows7 x64 及以上版本,并且支持多国语言的文字识别。
  2. GitHub星数:25.6k
  3. GitHub地址:https://github.com/hiroi-sora/Umi-OCR
    在这里插入图片描述

AI Gateway

  1. 介绍:AI Gateway 是一个用于管理和扩展生成式 AI 工作负载的统一接口,它允许开发人员监控和控制 AI 应用程序。Cloudflare 最近宣布 AI Gateway 已普遍可用,它作为一个 AIOps 平台,提供了对生成式 AI 工作负载的管理和扩展能力。AI Gateway 作为服务和推理提供者之间的代理,无论模型位于何处,都能够进行有效的管理和优化。
  2. GitHub星数:5.9k
  3. GitHub地址:https://github.com/Portkey-AI/gateway
    在这里插入图片描述

Parler-TTS

  1. 介绍:Parler-TTS 是一个由 Hugging Face 开发的轻量级文本转语音(TTS)模型,能够根据给定的说话者风格(包括性别、音调、说话风格等)生成高质量、自然听起来的语音。这个模型是基于 Dan Lyth 和 Simon King 的研究工作,他们分别来自 Stability AI 和爱丁堡大学。Parler-TTS 的特点是完全开源,包括数据集、预处理、训练代码和权重,这使得社区可以在此基础上进一步开发和创新。
  2. GitHub星数:4.2k
  3. GitHub地址:https://github.com/huggingface/parler-tts
    在这里插入图片描述

MiniCPM-V

  1. 介绍:MiniCPM-V 是由面壁智能和清华大学自然语言处理实验室共同开发的一系列端侧多模态大模型,它们在图像和文本的理解方面展现出了卓越的性能
  2. GitHub星数:12k
  3. GitHub地址:https://github.com/OpenBMB/MiniCPM-V
    在这里插入图片描述

TikTokDownloader

  1. 介绍:TikTokDownloader 是一个开源工具,它允许用户从抖音和 TikTok 平台下载无水印的视频、图集和直播内容。
  2. GitHub星数:7.5k
  3. GitHub地址:https://github.com/JoeanAmier/TikTokDownloader
    在这里插入图片描述

Qwen2-Audio

  1. 介绍:Qwen2-Audio 是由阿里通义千问团队推出的一款开源 AI 语音模型,它支持直接语音输入和多语言文本输出。该模型具备语音聊天和音频分析的功能,能够理解和回应语音指令,支持超过8种语言,包括中文、英语、粤语、法语等。Qwen2-Audio 在多个基准数据集上的表现超越了先前的模型,显示出其卓越的性能。
  2. GitHub星数:1.1k
  3. GitHub地址:https://github.com/QwenLM/Qwen2-Audio
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1542299.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

ES学习笔记

目录 简介 原理 基础概念 lucene总结 es的进步 实现过程 写入流程 搜索过程 和Mysql搭配 学习来源:https://i12pc3nf6d.feishu.cn/wiki/FnPwwGXGli1ANGkaMz5chvhmn2e#share-OYKJdYhehotnMgxrBiUcZSJJnCb https://i12pc3nf6d.feishu.cn/wiki/FnPwwGXGli1ANG…

【Linux】【Hadoop】大数据基础实验一

实验一:熟悉常用的Linux操作和Hadoop操作 一、实验目的 Hadoop运行在Linux系统上,因此,需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作和Hadoop操作,为顺利开展后续其他实验奠定基础。 二、实验平台 操作系统…

comp 9517 Computer Vision week2

图像处理 1.空间域操作(Spatial domain operation)1.1 点(Point operation)1.2 邻域(Neighbourhood operation)空间滤波(spatial filtering)修复边界问题(fixing the border problem)通过卷积进行空间滤波(Spatial filtering by convolution)卷积特性:滤波器强度梯度…

Java 缓存机制与缓存失效

在分布式系统中,缓存 是提高系统性能、减轻数据库压力的常用技术。合理的缓存策略不仅能提升响应速度,还能节省资源。不过,缓存并不是万能的,缓存失效 是开发中必须考虑的问题。如果处理不好,可能会导致数据不一致或性…

使用库函数点亮一个LED灯

软件设计 STM32Gpio的介绍 如果想让LED0点亮,那么R12就要是高电平,LED0就要是低电平,也就是PF9就是低电平 F407系统主频要工作在168MHZ F103的话是工作在72mhz F429的话就180MHZ 接着我们就要使能Gpio的时钟,使能之后对GPIO相关…

YOLOV8输出预测框的坐标信息

结果:(前提是对应类别的yolov8模型已经训练好) 具体实现: 在ultralytics\utils\plotting.py里面 CtrlF搜索box_label 再次照片的最后一行输入: # 左上角cv2.putText(self.im, f"({p1[0]}, {p1[1]})", (p1…

19.初始C语言指针

初始C语言指针 1.指针的认识2.指针变量的引入3.指针变量的类型4.指针的应用场景15.指针的应用场景26.作业 1.指针的认识 指针 地址 //int a 10; //类型 变量名 内存地址 值 1.变量名直接访问2.通过地址访问&:取地址运算符* :将地址内的值读取…

Nacos未授权下载配置信息

0x01 漏洞描述: Nacos是一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。Nacos存在未授权文件下载,攻击者在不登录情况下可未授权下载系统配置文件。 攻击者利用该漏洞可未授权获取到系统配置文件,如数据库和Redis连接地址…

【Delphi】创建应用程序和 LiveBindings示例(FMX)

一、创建一个FMX程序 界面上放置上如下3个控件:TProgressBar1, TArcDial1,TTrackBar1。 二、打开LiveBindings Designer 设计器 三、在 LiveBindings Designer 中,您的绑定图只包含对象,您可以将它们连接起来。 四、在设计器中,在…

openFrameworks_如何使用ofxXmlSettings和ofxGui来创建识别界面

效果图: 代码及详解 1.添加两个插件的头文件: #include "ofxGui.h" #include "ofxXmlSettings/src/ofxXmlSettings.h" 2.添加GUI部分,然后在.h声明右边的openframeworks的UI部分,包括面板ofxPanel,按钮ofx…

Tomcat 漏洞复现

1、CVE-2017-12615 1、环境开启 2、首页抓包,修改为 PUT 方式提交 Tomcat允许适用put方法上传任意文件类型,但不允许isp后缀文件上传,因此需要配合 windows的解析漏洞 3、访问上传的jsp文件 4、使用工具进行连接 2、后台弱⼝令部署war包 1…

简单了解一下SurfaceView

0 背景 最近好几次面试被问到SurfaceView的特点了,都没回答出来。 SurfaceView和TextureView也是Compose这样的声明式ui唯二实现不了控件;因为他们就不是View,而是Android提供的和Surface相关的显示系统 。 特此简单了解一下。 1 应用场景…

【Godot4.3】点数据简易表示法和Point2D

概述 在构造多点路径时我们会用到PackedVector2Array,并使用Vector2()来构造点。在手动创建多点数据时,这种写法其实很难看,有大量重复的Vector2(),比如下面这样: var points [Vector2(100,100),Vector2(200,200),V…

[Python]二、Python基础数据科学库(1)

F:\BaiduNetdiskDownload\2023人工智能开发学习路线图\2、机器学习核心技术\1、零基础快速入门机器学习 1.机器学习概述 1.1 人工智能概述 1.1.1 人工智能与机器学习、深度学习 1956年-达特茅斯会议-人工智能的起点 人工智能和机器学习、深度学习的关系: 1. 机器学习…

软考(9.22)

1 在浏览器的地址栏中输入xxxyftp.abc.can.cn,在该URL中( )是要访问的主机名。 A.xxxyftp B.abc C.can D.cn 协议://主机名.域名.域名后缀或IP地址(:端口号)/目录/文件名。 本题xxxyftp是主机名,选择A选项。 2 假设磁盘块与缓冲区大小相同,…

Django基础-创建新项目,各文件作用

学习Django的前置知识: python基本语法:需要掌握Python中的变量、循环、条件判断、函数等基本概念。面向对象编程(OOP):Django的核心架构基于面向对象编程,许多功能(如模型和视图)依…

【无人机设计与控制】 基于matlab的蚁群算法优化无人机uav巡检

摘要 本文使用蚁群算法(ACO)优化无人机(UAV)巡检路径。无人机巡检任务要求高效覆盖特定区域,以最小化能源消耗和时间。本研究提出的算法通过仿生蚁群算法优化巡检路径,在全局搜索和局部搜索中平衡探索与开…

文档布局内容检测系统源码分享

文档布局内容检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer…

银河麒麟高级服务器操作系统V10外接硬盘挂载指南

银河麒麟高级服务器操作系统V10外接硬盘挂载指南 1、临时挂载外接硬盘2、永久挂载外接硬盘3、总结 💖The Begin💖点点关注,收藏不迷路💖 在使用银河麒麟高级服务器操作系统V10时,您可能希望将外接硬盘(如sd…

django应用JWT(JSON Web Token)实战

文章目录 一、什么是JWT二、为什么使用JWT三、在django项目中如何应用JWT1、安装djangorestframework-simplejwt库:2、在settings.py中配置JWT认证:3、在urls.py中配置JWT的获取和刷新路由: 四、JWT如何使用1、调用生成JWT的接口获取JWT2、客…