最新开源:智源BGE登顶Hugging Face月度榜!北大快手开源Pyramid Flow!Rhymes AI发布首款开源多模态AI模型Aria!

文章目录

    • 1. 国产AI模型登顶全球TOP 1!智源BGE下载破亿成Hugging Face月榜冠军
    • 2. 北大&快手开源视频生成模型Pyramid Flow,1分钟生成5秒视频
    • 3. Rhymes AI发布首款开源多模态AI模型Aria,性能超越GPT-4o mini
    • 4. Mistral AI发布 Pixtral-12B 技术报告

1. 国产AI模型登顶全球TOP 1!智源BGE下载破亿成Hugging Face月榜冠军

近日,Hugging Face更新了月度榜单,智源研究院的 BGE 模型登顶榜首,这是中国国产AI模型首次成为Hugging Face月榜冠军。BGE 在短短一年时间内,总下载量已超数亿次,是目前下载量最多的国产AI系列模型。

在这里插入图片描述

BGE,全称BAAI General Embedding,是北京智源人工智能研究院研发的开源通用向量模型,该系列模型专为各类信息检索及大语言模型检索增强应用而打造。

在这里插入图片描述

自2023年8月发布首款模型 BGE v1,历经数次迭代,BGE 已发展为全面支持“多场景”、“多语言”、“多功能”、“多模态”的技术生态体系。

BGE 不仅性能综合卓越,多次大幅刷新 BEIR、MTEB、C-MTEB 等领域内主流评测榜单,而且始终秉持彻底的开源开放的精神,“模型、代码、数据” 向社区完全公开。BGE 在开源社区广受欢迎,许多 RAG 开发者将其比作信息检索的“瑞士军刀”。

2. 北大&快手开源视频生成模型Pyramid Flow,1分钟生成5秒视频

10月11日,北京大学、北京邮电大学和快手科技联合开源了一款名为Pyramid Flow的高清视频生成模型。用户在输入文本之后,即可生成最长 10 秒、分辨率高达 1280x768、帧率 24fps 的高质量视频

在这里插入图片描述

  • 项目地址:https://pyramid-flow.github.io
  • 论文地址:https://arxiv.org/pdf/2410.05954
  • Demo地址:https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow

Pyramid Flow 的核心特点如下:

  1. 高效生成:Pyramid Flow 采用新技术,通过统一 AI 模型分阶段生成视频,大多数阶段为低分辨率,只有最后阶段为全分辨率。这种“金字塔流匹配”方法保持了视频的高视觉质量前提下,大幅降低了计算成本,tokens 数量是传统 diffusion 模型的四分之一

在这里插入图片描述
在这里插入图片描述

图:金字塔流匹配算法:视频的生成是在不同的分辨率层次上逐步进行的

  1. 快速推理:在推理过程中,该模型可以在 56 秒内生成一个 5 秒、384p 的视频,速度媲美许多全序列 diffusion 模型,甚至更快。
    在这里插入图片描述

图:Pyramid Flow生成的视频展

  1. 开源和商业使用:Pyramid-Flow 在 MIT 许可证下发布,允许广泛的使用,包括商业应用、修改和再分发,吸引了希望将模型集成到专有系统中的开发者和公司。

在这里插入图片描述

3. Rhymes AI发布首款开源多模态AI模型Aria,性能超越GPT-4o mini

近日,日本初创公司 Rhymes AI 发布首款开源多模态AI模型 Aria。

Aria 是一个多模态本地混合专家模型,能够在多种多模态、语言和编码任务中表现出色,尤其在视频和文档理解方面具有优势。它支持长达 64K 个 token 的多模态输入,并能在 10 秒内为 256 帧视频生成字幕。

Aria 的设计轻量且快速,能够高效编码不同大小和纵横比的视觉输入。

在这里插入图片描述

  • 论文地址: https://arxiv.org/abs/2410.05993
  • Code地址: https://github.com/rhymes-ai/Aria
  • 官网地址: https://rhymes.ai/

Aria 的设计理念是希望能够在文本、代码、图像和视频等多种输入形式上,提供卓越的理解和处理能力。与传统的 Transformer 模型不同,MoE 模型通过多个专业的专家来替代其前馈层。当处理每个输入令牌时,一个路由模块会选择一部分专家进行激活,从而提高计算效率,减少每个令牌的激活参数数量。

在这里插入图片描述

在训练方面,Rhymes AI 共分为四个阶段,先用文本数据进行预训练,再引入多模态数据,接着是长序列的训练,最后进行微调。

在这里插入图片描述

根据相关基准测试,Aria 在多个多模态、语言和编程任务中表现优于 Pixtral-12B 和 Llama-3.2-11B 等模型,并且因激活参数较少,推理成本也较低。

在这里插入图片描述

此外,Aria 在处理带有字幕的视频或多页文档时表现良好,其理解长视频和文档的能力超过了 GPT-4o mini 和 Gemini1.5Flash 等其他开源模型

在这里插入图片描述

4. Mistral AI发布 Pixtral-12B 技术报告

9 月 12 日,法国 AI 初创公司 Mistral 发布 Pixtral 12B,是该公司首款能够同时处理图像和文本的多模态 AI 大语音模型。

近日,Mistral AI 发布 Pixtral-12B 技术报告。

Pixtral-12B 是一个 120 亿参数的多模态语言模型。经过训练,Pixtral-12B 既能理解自然图像,也能理解文档,在各种多模态基准测试中取得了领先的性能,超越了许多大模型。

在这里插入图片描述

  • 论文地址:https://arxiv.org/pdf/2410.07073
  • 官网地址: https://mistral.ai/news/pixtral-12b/
  • Inference code: https://github.com/mistralai/mistral-inference/
  • Evaluation code: https://github.com/mistralai/mistral-evals/

与许多开源模型不同的是,Pixtral 也是同类产品中的先进文本模型,并且不会因为在多模态任务中表现出色而降低自然语言性能。

在这里插入图片描述

Pixtral 使用从零开始训练的全新视觉编码器,可按自然分辨率和长宽比摄取图像。这样,用户就能灵活处理图像中使用的 token 数量。Pixtral 还能在 128K token 的长上下文窗口中处理任意数量的图像。

Pixtral 12B 的性能大大优于其他类似大小的开源模型(Llama-3.2 11B 和 Qwen-2-VL 7B)。它还优于 Llama-3.2 90B 等更大的开源模型,但体积却小了 7 倍。

在这里插入图片描述

Mistral 还贡献了一个开源基准 —— MM-MT-Bench,用于评估实际场景中的视觉语言模型,并为多模态 LLM 的标准化评估协议提供了详细的分析和代码。

在这里插入图片描述

参考:
https://huggingface.co/BAAI
https://pyramid-flow.github.io/

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1562249.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

华为 静态路由和bfd 侦测的实验

实验要求 sw1 上业务地址192.168.1.1/24 SW3 业务地址192.168.2.1/24 正常情况下走主链路,不正常的情况下走备份链路 2 配置 这是基本地址配置 开启了bfd 本端地址为 10.1.1.1 对端地址是10.1.1.2 关键是discrimination 分辨参数 …

【JavaScript】LeetCode:61-65

文章目录 61 课程表62 实现Trie(前缀树)63 全排列64 子集65 电话号码的字母组合 61 课程表 Map BFS拓扑排序:将有向无环图转为线性顺序。遍历prerequisites:1. 数组记录每个节点的入度,2. 哈希表记录依赖关系。n 6&a…

基于深度学习的细粒度图像分析综述【翻译】

🥇 版权: 本文由【墨理学AI】原创首发、各位读者大大、敬请查阅、感谢三连 🎉 声明: 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️ 文章目录 基础信息0 摘要1 INTRODUCTION2 识别与检索 RECOGNITION VS. RETRIEVAL3 问题和…

牛客SQL练习详解 06:综合练习

牛客SQL练习详解 06:综合练习 SQL34 统计复旦用户8月练题情况SQL35 浙大不同难度题目的正确率SQL39 21年8月份练题总数 叮嘟!这里是小啊呜的学习课程资料整理。好记性不如烂笔头,今天也是努力进步的一天。一起加油进阶吧! SQL34 统…

Python100道新手练习题(附答案)

基础语法 1.打印 “Hello, World!” print("Hello, World!")2.定义一个变量并打印其值 message "Hello, Python!" print(message)3.定义两个整数变量并计算它们的和 a 5 b 3 sum a b print(sum)4.使用条件语句判断一个数是否为正数 num 10 if n…

初知C++:AVL树

文章目录 初知C:AVL树1.AVL树的概念2.AVL树的是实现2.1.AVL树的结构2.2.AVL树的插入2.3.旋转2.4.AVL树的查找2.5.AVL树平衡检测 初知C:AVL树 1.AVL树的概念 • AVL树是最先发明的自平衡⼆叉查找树,AVL是⼀颗空树,或者具备下列性…

node.js服务器基础

node.js的事件循环 node.js是基于事件驱动的,通常在代码中注册想要等待的事件,设定好回调函数,当事件触发的时候就会调用回调函数。如果node.js没有要处理的事件了,那整个就结束了;事件里面可以继续插入事件,如果有事…

低代码开发技术:驱动MES系统创新与制造业数字化转型的融合之路

低代码开发与生产管理MES系统的融合,是当今制造业数字化转型的一个重要趋势。以下是对这一融合现象的详细分析: 一、低代码开发的概念与特点 低代码开发是一种通过图形化界面和预构建模块来简化应用程序开发过程的方法。它允许开发人员使用拖放组件和最…

接口多继承与子类继承多接口时的冲突问题,方法冲突与变量冲突.....

🚀 个人简介:某大型国企资深软件开发工程师,信息系统项目管理师、CSDN优质创作者、阿里云专家博主,华为云云享专家,分享前端后端相关技术与工作常见问题~ 💟 作 者:码喽的自我修养&#x1f9…

JavaScript 第7章:字符串处理

第7章:字符串处理 在 JavaScript 中,字符串是一个非常常用的数据类型,用于表示文本信息。JavaScript 提供了许多内置的方法来处理字符串,包括操作、搜索、替换和格式化等。 一、字符串操作方法 1. charAt charAt(index) 方法返…

支票欺诈检测AI系统

这是我们 LLM Makerspace 活动的记录摘要,我们使用经过微调的 LLM 构建了一个支票欺诈检测和解释 AI 系统。 那么,支票到底是什么?它们本质上是一种汇款,你将金额写在一张纸上并将其交给某人。它被视为法定货币和服务付款。作为一…

光明乳业乳品四厂勇闯TPM世界级奖终审,开创中国乳品行业新纪元

近日,中国乳品行业的标志性事件在光明乳业乳品四厂隆重上演,该厂迎来了TPM(全面生产维护)世界级奖项的终审评审,这不仅是光明乳业发展历程中的重大突破,也是中国乳品行业首次冲击该领域最高荣誉——TPM世界…

华为面试就这?00后直接拿下20K的offer...

先说一下我的情况,某不知名211本计算机毕业,之前在深圳那边做了大约半年多少儿编程老师,之后内部平调回长沙这边,回来之后发现有点难,这边可能是业绩难做,虚假承诺很厉害,要给那些家长虚假承诺去…

mac 桌面版docker no space left on device

报错信息 docker pull镜像时报: failed to register layer: Error processing tar file(exit status 1): write /home/admin/oceanbase_bak/bin/observer: no space left on device 解决 增加 docker 虚拟磁盘大小。 调整完点击重启即可。

Etsy店铺总是被封?看看这些替代平台!

对于创意商家而言,Etsy是一个充满机遇的电商平台。然而,Etsy平台政策过于苛刻,许多卖家的店铺频繁遭遇封禁,辛苦建立的客户基础瞬间化为乌有。本文将为您介绍几个值得一试的Etsy替代平台,帮助您分散经营风险&#xff0…

匹配全国地址的正则表达式工具类

正则表达式,匹配全国五级地址工具类,可以直接放在项目中使用~ 1级:国 (可忽略不填) 2级:**省、**自治区、**直辖市、**特别行政区、(四个直辖市可忽略不填) 3级:**市、**…

pytest + yaml 框架 - 支持pytest-repeat插件重复执行用例

平常在做功能测试的时候,经常会遇到某个模块不稳定,偶然会出现一些bug,对于这种问题我们会针对此用例反复执行多次,最终复现出问题来。 自动化运行用例时候,也会出现偶然的bug,可以针对单个用例&#xff0…

新特性速览! Sermant 2.1.0版本重磅发布

9月底,Sermant社区正式发布了2.1.0 Release版本,本次版本更新为大家带来了许多新的重要特性。在此前版本xDS协议支持的基础上,2.1.0版本新增了路由和负载均衡的CRD的支持,同时路由插件也适配了当前的xDS协议。此外新增了RocketMQ灰…

注册电气工程师印章要求

一、边框 1.尺寸:长63mm、宽28mm、线宽:0.6mm 2.第一格:宽7.25mm 3.第二格:宽19.2mm 二、文字 1.第一行 名称:行长59.50mm 字高5.61mm 字体 宋体 2.第二行 姓名:行长42.00mm 字高5.28mm 字体 姓名 宋体 人名…

超声波清洗机靠谱吗?适合学生党入手的四款眼镜清洗机品牌推荐!

有没有学生党还不知道双十一买什么?其实可以去看看超声波清洗机,说实话它的实用性真的很高,对于日常用于清洗眼镜真的非常合适,不仅可以帮助大家节约时间而且还能把眼镜清洗的干净透亮,接下来我就来为大家带来四款好用…