Kyutai 开源对话模型 Moshi;李飞飞空间智能公司已筹集超过 2.3 亿美元丨 RTE 开发者日报

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。

我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、Kyutai 发布开源对话式 AI 助手 Moshi

法国人工智能实验室 Kyutai 发布了两个版本的人工智能助手 Moshi,能够与用户进行自然对话。在 7 月推出 AI 助手 Moshi 之后,Kyutai 现已按照承诺发布了开源模型。该版本包括几个组件:技术报告、Moshi 及其 Mimi 编解码器的权重以及 PyTorch、Rust 和 MLX 中的流式推理代码。

据报告称,Moshi 由三个主要组件组成:Helium,一个 7B 语言模型;Mimi,一个神经音频编解码器;以及一个新的多流架构。该系统可以对具有重叠和中断的实时对话进行建模。Kyutai Labs 提供了两个带有人工生成声音的 Moshi 模型。更多详细信息可在发表的论文和 GitHub 存储库中找到。

在演示中,Kyutai 首席执行官 Patrick Perez 解释说,Moshi 是由一个八人团队在短短六个月内开发的。Moshi 的与众不同之处在于它能够实时说话和聆听。Kyutai 声称 Moshi 的理论延迟仅为 160 毫秒,而实际上,延迟在 200 到 240 毫秒之间。

Moshi 的架构基于一种新方法,Kyutai 称之为「音频语言模型」。该模型不会像往常一样将语音转换为文本,而是对音频数据进行大量压缩并将其视为伪词。这使得它可以直接处理音频数据并预测语音,使其成为一个原生多模态模型,类似于 GPT-4o。

Kyutai 使用了各种数据源进行训练,包括人体运动数据和 YouTube 视频。首先,训练了一个名为 Helium 的纯文本模型。然后,使用文本和音频数据进行联合训练。使用合成对话对对话进行微调。

由于底层语言模型只有 70 亿个参数,因此它在对话中表现出小型模型的常见局限性。尽管如此,语言能力和速度令人印象深刻,并暗示了当这项技术采用更强大、更大的模块时,其潜力巨大。

为了让 Moshi 拥有一致的声音,Kyutai 与一位名叫 Alice 的配音演员合作。她录制了各种风格的独白和对话,然后用于训练语音合成系统。(@大模型 Daily)

2、快手可灵 AI 发布 1.5 模型:新增「运动笔刷」,支持生成 1080p 视频

在这里插入图片描述

快手可灵 AI 今日面向全球发布可灵 1.5 模型,新增「运动笔刷」功能。据介绍,「运动笔刷」功能为图片中的元素(人或物体等)指定运动轨迹,还支持额外指定静止区域,提升画面可控性。

同时,可灵 AI 的视频画质有所提升,支持生成 1080p 视频,同时构图更美观、动作更合理、文本相关性提升。

快手高级副总裁盖坤 9 月 13 日在投资者日上披露,截至目前,已有超过 260 万人使用过快手的视频生成大模型可灵 AI,并累计生成超 2700 万个视频。产品发布以来,可灵 AI 已进行了 9 次迭代和升级,近期,可灵 AI 正在内测全新的 1.5 版本基础模型。

今年 8 月 23 日,快手可灵 AI 推出会员订阅计划,其中连续包月首月最低价 19 元、次月 58 元,可生成约 66 个视频或 3300 张图片,还可享受高表现视频生成、视频延长、大师运镜等多项会员专属功能。

据快手官方介绍,可灵大模型为快手 AI 团队自研,采用 Sora 相似的技术路线,结合多项自研技术创新、效果对标 Sora。快手可灵目前包括 AI 图片、AI 视频等功能,支持文字生成图片 / 视频,还能调节各项参数,免费用户使用会消耗「灵感值」,每日消耗完后便需付费使用。(@IT 之家)

3、AI 先驱李飞飞创业聚焦空间智能,要对整个世界建模

人工智能领域的知名华裔科学家李飞飞成立了 AI 公司「World Labs」,专注于空间智能技术的研究。李飞飞曾领导 ImageNet 项目,对深度学习算法发展有重要影响。World Labs 旨在开发能够理解 3D 世界并与之交互的 AI 模型,以支持创作、设计、学习、AR/VR 和机器人等领域的应用。公司已筹集超过 2.3 亿美元资金,预计 2025 年推出首款产品。李飞飞将这一创业视为自己职业生涯的延续和扩展。(@腾讯科技)

4、SiFive 推出 Intelligence XM 系列 RISC-V 架构 AI 数据流处理器

在这里插入图片描述

RISC-V 设计企业 SiFive 昨日宣布推出 Intelligence XM 系列 AI 数据流处理器。这一系列属于 SiFive 的 Intelligence 智能处理器 IP 核家族,该家族还包括 X390 等产品。

SiFive 表示 Intelligence XM 系列搭载同时具有扩展性和高效能的 AI 计算引擎,并延续了 SiFive IP 产品在计算密集型应用中优秀的每瓦性能表现。

SiFive Intelligence XM 系列的基本单元是 XM 集群,每个 XM 集群包含矩阵引擎和 4 个与之深度融合的 X-Core,而每个 X-Core 能提供 2 个矢量单元和 1 个标量单元。XM 集群支持新的矩阵指令,该指令由标量单元获取,源数据来自矢量寄存器,目的地为各个矩阵累加器。

SiFive 宣称 1 个 XM 集群每 GHz 频率可提供 16 TOPS INT8 算力或 8 TFLOPS BF16 算力,单 XM 集群持续带宽为 1TB/s。XM 集群拥有 2 种内存连接方式,一是直接通过高带宽接口访问存储模型数据的高速 SRAM,二是通过 CHI 接口访问 DDR、HBM 内存。

SiFive Intelligence XM 系列 AI 数据流处理器可通过 CHI 协议实现多 XM 集群扩展,其支持 RISC-V、x86 或 Arm 主机 CPU,也可无需主机 CPU 运行。(@IT 之家)

5、ReflectionAnyLLM

在这里插入图片描述

ReflectionAnyLLM 是一个轻量级的概念验证项目,旨在展示如何与任何支持 OpenAI 兼容 API 的大语言模型(LLM)进行基本的链式推理交互。该项目可以与本地或远程的 LLM 进行接口,允许用户在不同的提供商之间进行最小设置的切换。(@机器之心 SOTA 模型)

二、有态度的观点

1、Sam Altman 最新访谈:o1 相当于推理模型的 GPT-2

最近的 T-Mobile Capital Markets Day 活动上,OpenAI CEO Sam Altman 现身现场。他谈到了 o1 和 AI 的发展路径,以及 OpenAI 为何总能遥遥领先。

Altman 认为,o1 是第一个真正能够执行高级推理的系统,正处于推理模型的 GPT-2 阶段,未来几年发展到 GPT-4 的水平。o1 将带来新的模型使用方式,和 GPT 系列模型非常不同,它不仅仅是聊天界面。就像 ChatGPT 让 GPT-3.5 人尽皆知,o1 还需要时间磨合。o1 的出现,实现了 AI 发展阶段的跨越,带来了更加陡峭的进步曲线。OpenAI 的成功,是因为保持信念和专注,他们始终相信深度学习。Sam Altman 看好 AI 在医疗、教育、科学方面的进展,相信 AI 的发展能够带来真正可持续的经济增长与生活质量的改善。(@ APPSO)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
在这里插入图片描述
素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1540657.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

OpenAI GPT o1技术报告阅读(3)-英文阅读及理解

✨继续阅读报告:使用大模型来学习推理(Reason) 原文链接:https://openai.com/index/learning-to-reason-with-llms/ 这次我们继续看一个英文阅读理解的案例。 原问题: The following passage is the draft of an excerpt from a contempora…

Web开发:ABP框架3——入门级别的接口增删改查实现原理

一、上节回顾 运用了ABP框架&#xff0c;使用了EFcore进行增删改查 二、程序的入口 代码解说&#xff1a; public class Program // 定义程序主类 {public async static Task<int> Main(string[] args) // 主方法&#xff0c;返回状态码{// 配置Serilog日志Log.Logger…

手机换新,怎么把旧iPhone手机数据传输至新iPhone16手机

随着苹果公司推出了备受期待的iPhone 16。这款最新型号的iPhone不仅在设计上进行了革新&#xff0c;更在性能和功能上带来了前所未有的突破。对于那些准备从旧iPhone升级到iPhone 16的用户来说&#xff0c;最关心的问题之一就是如何把旧手机的资料转移到新手机中了。如果你不知…

Java从入门到精通学习框架(二)

在这个阶段&#xff0c;重点是掌握 Java 的高级特性&#xff0c;理解和应用常见的数据结构、Java 的并发编程模型&#xff0c;以及深入理解 Java 的内存管理机制等。通过这一阶段的学习&#xff0c;你将能够编写更加复杂和高效的程序&#xff0c;并为后续的框架学习打下坚实基础…

深度学习-图像处理篇1.1-1.2神经网络

1.1卷积神经网络基础 卷积层 对彩色RGB图像进行卷积 1.卷积核的通道数与输入特征层的通道数相同 2.卷积输出的特征矩阵通道数与卷积核个数相同 池化层 池化中一般池化核大小和步长大小一样 思考 加上偏移量bias该如何计算? 卷积计算时加上偏移量即可 加上激活函数该如何计…

Python画笔案例-055 绘制七彩浪花

1、绘制七彩浪花 通过 python 的turtle 库绘制 七彩浪花&#xff0c;如下图&#xff1a; 2、实现代码 绘制七彩浪花&#xff0c;以下为实现代码&#xff1a; """七彩浪花.py """ import turtlecs [red,orange,yellow,green,cyan,blue,magenta]…

E2VPT: An Effective and Efficient Approach for Visual Prompt Tuning

论文汇总 存在的问题 1.以前的提示微调方法那样只关注修改输入&#xff0c;而应该明确地研究在微调过程中改进自注意机制的潜力&#xff0c;并探索参数效率的极限。 2.探索参数效率的极值来减少可调参数的数量? 解决办法 提示嵌入进行transformer中 提示剪枝 Token-wise …

OpenCV_距离变换的图像分割和Watershed算法详解

在学习watershed算法的时候&#xff0c;书写代码总会出现一些错误&#xff1a; 上述代码运行报错&#xff0c;显示OpenCV(4.10.0) Error: Assertion failed (src.type() CV_8UC3 && dst.type() CV_32SC1) in cv::watershed 查找资料&#xff1a;目前已解决 这个错…

CentOS7搭建Hadoop3集群教程

一、集群环境说明 1、用VMware安装3台Centos7虚拟机 2、虚拟机配置&#xff1a;2C&#xff0c;2G内存&#xff0c;50G存储 3、集群架构设计 从表格中&#xff0c;可以看出&#xff0c;Hadoop集群&#xff0c;主要有2个模块服务&#xff0c;一个是HDFS服务&#xff0c;一个是YAR…

wordpress更换域名后用户图片头像不显示

&#x1f3c6;本文收录于《全栈Bug调优(实战版)》专栏&#xff0c;主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案&#xff0c;希望能够助你一臂之力&#xff0c;帮你早日登顶实现财富自由&#x1f680;&#xff1b;同时&#xff0c;欢迎大家关注&&am…

【Python报错已解决】AttributeError: ‘DataFrame‘ object has no attribute ‘append‘

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 专栏介绍 在软件开发和日常使用中&#xff0c;BUG是不可避免的。本专栏致力于为广大开发者和技术爱好者提供一个关于BUG解决的经…

基于深度学习的文本情感原因提取研究综述——论文阅读

前言 既然要学习情感分析&#xff0c;那么肯定还要了解情感原因对抽取的发展历程&#xff0c;所以我又搜了一篇研究综述&#xff0c;虽然是2023年发表的&#xff0c;但是里面提及到的历程仅停留到2022年。这篇综述发布在TASLP期刊&#xff0c;是音频、声学、语言信号处理的顶级…

【论文解读系列】用于自监督点云表示的生成变分对比学习

Generative Variational-Contrastive Learning for Self-Supervised Point Cloud Representation | IEEE Transactions on Pattern Analysis and Machine Intelligence (acm.org) 作者&#xff1a;Bohua Wang; Zhiqiang Tian; Aixue Ye; Feng Wen; Shaoyi Du; Yue Gao 摘要 三…

Coggle数据科学 | 科大讯飞AI大赛:玉米雄穗识别挑战赛

本文来源公众号“Coggle数据科学”&#xff0c;仅用于学术分享&#xff0c;侵权删&#xff0c;干货满满。 原文链接&#xff1a;科大讯飞AI大赛&#xff1a;玉米雄穗识别挑战赛 赛题名称&#xff1a;玉米雄穗识别挑战赛 赛题类型&#xff1a;计算机视觉、物体检测 赛题任务&…

LeetCode_sql_day30(1264.页面推荐)

描述 1264.页面推荐 朋友关系列表&#xff1a; Friendship ------------------------ | Column Name | Type | ------------------------ | user1_id | int | | user2_id | int | ------------------------ (user1_id, user2_id) 是这张表具有唯一值的…

HT326 免电感滤波2x20W D类立体声音频功放

特点 输出功率(BTL模式) 2x20W (VDD14.5V,RL4Ω,THDN1%) 单电源系统: 4.5V-18V; 超过90%效率&#xff0c;无需散热器 扩频功能&#xff0c;免电感滤波 模拟差分/单端输入可选 增益:32dB 保护功能:过压/过流/过热/欠压异常&#xff0c;直流检测 和短路保护 无铅无卤封装&#x…

Python画笔案例-054 绘制流光溢彩动画

1、绘制流光溢彩动画 通过 python 的turtle 库绘制 流光溢彩动画&#xff0c;如下图&#xff1a; 2、实现代码 绘制流光溢彩动画&#xff0c;以下为实现代码&#xff1a; """本程序实现流光溢彩的动画效果 """ from turtle import * from color…

流动网红打卡车!苏州金龙海格双层巴士带你体验别样津门津韵

近日&#xff0c;由文化和旅游部主办&#xff0c;天津市文化和旅游局等单位承办的2024中国文化旅游产业博览会在天津拉开帷幕&#xff0c;展会期间&#xff0c;来自全国各地的文旅产品精彩亮相。而在天津交通集团展台&#xff0c;来自苏州金龙海格客车制造的网红双层观光“音乐…

YOLOv8改进 - 注意力篇 - 引入ECA注意力机制

一、本文介绍 作为入门性第一篇&#xff0c;这里介绍了ECA注意力在YOLOv8中的使用。包含ECA原理分析&#xff0c;ECA的代码、ECA的使用方法、以及添加以后的yaml文件及运行记录。 二、ECA原理分析 ECA官方论文地址&#xff1a;ECA文章 ECA的pytorch版代码&#xff1a;ECA的…

Unet改进41:添加gConvBlock(2024最新改进方法)|

本文内容:在不同位置添加gConvBlock 目录 论文简介 1.步骤一 2.步骤二 3.步骤三 4.步骤四 论文简介 图像去雾是低层次视觉中的一个活跃话题,随着深度学习的快速发展,许多图像去雾网络被提出。尽管这些网络的管道运行良好,但改善图像去雾性能的关键机制仍不清楚。因此…