字节、快手、Vidu“打野”升级,AI视频小步快跑

文|白    鸽

编|王一粟

继9月份版本更新之后,光锥智能从生数科技联合创始人兼CEO唐家渝朋友圈获悉,Vidu大模型将于本周再次进行版本升级,Vidu-1.5版本即将上线。

此版本更新方向仍是重点延伸大模型的泛化能力和主体一致性问题。上一版本重点是单一主体的一致性,而最新版本则能够理解和整合人物、物体、环境等多个概念,遵循用户指令30秒内生成多个主体融合的相关视频结果,率先实现视频创作中的多主体一致性生成。

除Vidu外,自今年9月份以来,据不完全统计,包括字节旗下即梦AI、快手可灵AI、Runway、智谱清影、爱诗科技PixVerse、Pika等主流的AI视频生成平台,都已经进行了版本更新。

当前,在爆火的AI视频生成赛道中,大模型创企、互联网大厂等纷纷入局,而在经过前期各家密集进行产品发布阶段后,如今已进入产品迭代升级比拼阶段。

通过各家版本更新的内容,不难发现,AI视频生成大模型能力迭代的大方向,仍是生成视频的时长、画面的稳定性、连续性和主体前后的一致性上。

但与此同时,各个玩家又在实际功能应用中,开始出现“分野”,各有侧重,部分中小玩家也开始找到自己的细分市场。

比如Runway最新版本中更新了可将真人面部表情精确复刻给AI角色的Act-One,以能够实现3D化的AI摄像头控件。PixVerse则上线了各种万圣节特效、毒液特效等。

对此轮各AI视频生成平台的更新,星贤文化创始人、AI原创玄幻IP《山海奇镜》制作人陈坤认为:“最大的更新应该是Act-One这种表情迁移,提供了人物表演的基础可能性。”而对于人物主体的一致性和稳定性,“有进步,但并没有代际型进步。”

在AI视频创作者尾鳍Vicky看来,相比上半年初代产品,最新更新的AI视频平台,除了在底层模型能力上的迭代之外,在功能上也进行了更新,比如首尾针、画质和帧率的补足、配音等功能,“这些功能的完善,实际上是比上半年更全面。”

如果说2024上半年,是AI视频生成赛道的军备竞赛,那么下半年则是进入小步快跑的版本更新周期。

而在此阶段,字节和快手的交锋仍在激烈进行中,中小厂商开始找到自己独特赛道,而一些企业专注走海外市场,也实现了“国内开花,墙外香”的效果。

无疑,这一阶段的厮杀,看似温和,但却实质性的影响平台自身的定位和未来发展的方向,以及后续用户群体和数量规模的可持续增长。

字节狂追,快手抢跑

“即梦有些掉队。”这是AI视频生成平台用户给出的客观评价。

作为去年第一批的AI视频生成平台,以及字节旗下的产品,即梦AI的视频生成效果一直备受使用者诟病,处于被Runway、Pika等同一批玩家吊打的状态。

今年6月,字节在短视频领域的直接竞争对手——快手,正式在官网上线了“可灵”视频生成大模型,并火速出圈。同时,越来越多AI视频生成平台如雨后春笋般推出,AI视频生成赛道彻底爆火。

在强大竞争压力之下,作为国内AI产品第一梯队,补上视频生成这一块短板,已成为字节跳动面临的当务之急,而其奋起直追的速度也超乎想象。

9月24日,2024火山引擎AI创新巡展深圳举办,原抖音艺术负责人陈欣然以即梦AI及剪映市场和运营负责人的身份亮相,并宣布即梦AI已经接入了豆包最新的视频生成模型。

同期,字节跳动发布豆包模型家族的两款视频生成模型Seaweed和Pixeldance,并通过即梦 AI、火山引擎分别面向创作者和企业客户小范围邀测。

11月8日,字节跳动旗下的AI内容平台即梦AI宣布,由字节跳动自研的视频生成模型Seaweed面向平台用户正式开放。

据字节跳动方面介绍,本次开放使用的豆包视频生成模型Seaweed是该款模型的标准版,仅需60秒即能生成时长5秒的高质量AI视频,领先国内业界3至5分钟的所需生成时间。

即梦AI还透露,近期Seaweed和Pixeldance两款视频生成模型的Pro版也将开放使用。Pro 版模型能实现自然连贯的多拍动作与多主体复杂交互,攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性,适配电影、电视、电脑、手机等各种设备的比例。

字节抖音和快手,作为国内短视频平台的领军者,双方的竞争已经从短视频、电商转移至AI领域,客观来说,抖音在各方面都压快手一头。但唯独在AI领域,快手给出了漂亮的反击。

自6月一鸣惊人之后,快手可灵其实已经有数次的小版本的迭代。

但在底层大模型能力上,今年9月20日,快手发布可灵1.5版本,接入新一代模型,实现了画质和动态质量都大幅提升,原有的模型也加入了新功能——运动笔刷,生成效果可控性增强。

“可灵1.5很强,可以说是所有模型里面最真实的,吊打Runway,基本上已经克服了之前人物变形的问题。”AIGC创业者洋芋酱AIgen(艺名)如此对光锥智能说道。

在实际生成的视频效果中,对比可灵和Runway,可以看到,同一个提示词,两者在实际人物主体的稳定性上效果都很强,但可灵生成出的视频效果能够自动解锁面部表情。

“Runway其实也能自主生成面部表情,但效果非常诡异。”洋芋酱AIgen如此说道,不过,可灵AI和Runway这种能力是随机的,并不固定。

这其实也能够看到,可灵AI和Runway在实际生成效果上更胜一筹,而在对提示词的理解上,可灵AI也确实走在前列,但未来也仍需要不断迭代升级,才能将这一能力固化下来。

不过,此次即梦上线最新视频生成大模型之后,尾鳍Vicky则认为其在模型能力和UI设计上,与可灵差距不大。同时,在内测即梦平台Pro版模型的时候,其能够轻松控制画面的运动幅度和动作。

作为国内头部的短视频平台,快手和字节,在AI视频生成赛道的布局,终局目的是要吸引和留住用户的注意力,而这就需要不断生产出新颖、有质量、有创意的内容。

基于此,AI短剧,也成为字节即梦和快手可灵竞争的焦点之一。

今年7月份,由“可灵AI”创作出的AI短剧《山海奇镜之劈波斩浪》引发广泛关注,该短剧成为国内首部AIGC原创奇幻微短剧。

9月,快手星芒短剧联合“可灵AI”推出了“星有灵犀-AI短剧创作大赛”。据悉,大赛以流量奖励、荣誉奖励、内容签约等多项举措激励更多人加入AI短剧创作。

字节同样不甘示弱,即梦AI在联手博纳影业发布首部AIGC生成科幻短剧《三星堆:未来启示录》的同时,也在联手抖音平台多位“超级创作者”实现共创,邀请平台上有高质量粉丝及高影响力的达人,共同加入“超级创作者联盟”计划,希望借此打造国内最大的虚拟创作社群。

但现阶段不管是抖音,还是快手,其视频平台的影视创作者创作的内容,“很难破圈儿。”尾鳍Vicky如此说道,“因为现在整个市场尚未形成,C端用户并不知道用它来干嘛。头部会有一些商业化需求,但需求并不多,整体并不稳定。”

毕竟,现阶段全球的专业创作者还比较少,且AI视频生成大模型技术尚处于早期阶段。

因此,作为头部视频平台,字节和快手之间的竞争也日趋激烈,而除了底层AI技术、产品之争外,更重要的则在于谁能够率先探索出技术赋能内容之路。毕竟,平台如果能够聚集更多具有创新意识的内容创作者,就能够打造出一个更受用户关注和喜爱的社区生态。

当然,除了字节和快手之外,在AI视频生成赛道中的其他玩家,也开始出现“分野”,部分中小厂商,也开始探索并走出了一条属于自己的差异化竞争之路。

细分市场崛起,找准自身定位是王道

在抖音、快手等短视频平台上,一些创作者创作的内容可能破圈儿难度比较大,但一些包含鬼畜特效的视频,却异常的火爆,比如由AI生成的何炅和黄磊突然打架的视频。

对于AI视频生成赛道的玩家来说,如果字节和快手,是全方位的技术和内容生态体系的竞争,而其他中小玩家更多的则是聚焦在细分赛道,找准自身平台和产品定位,则成为生存发展的基础。

10月底,Runway的CEO在公开信中明确表示, Runway并不是一家AI公司,而是一家媒体和娱乐公司,“我认为 AI 公司的时代已经结束了。”

基于此,在各大公司争相卷AI视频生成长度、逼真度、流畅度的时候,Runway显然已经在AI视频赛道中走出了自己的特色——做专门服务于艺术、媒体和娱乐的AI。

从Runway的实际视频生成效果来看,其在人物稳定性、一致性上的效果可以说走在前列。而除了基础技术能力外,在最新的版本更新中,Runway上线的2个新功能虽小,但都将为动画师、游戏开发者和电影制作人提供非常大的便利、节约巨大的成本。

Runway可以说是最受影视从业者欢迎的产品之一,除技术实力之外,更重要的还在于性价比。

“ Runway实在是太香了,我们用可灵都是省着用,但是Runway是无限次数的,每天抽个几百次都无所谓。”洋芋酱AIgen表示,“AI视频的随机性还是很强的,如果按次收费,普通创作者可能很难承受起这个成本。”

反观可灵,如果用1000元购买积分,能够购买15000可灵值,每次用35可灵值,1000元只能生成428次。对于真正的创业者来说,基本不够用,“按照我在Runway每天要生成两百多次视频的频率来看,可灵1000元购买的积分基本2天就烧完了。”洋芋酱AIgen如此说道。

在光锥智能上一篇《爆“卷”的AI视频,大厂向左,创企向右》文章中也提到过,对于现阶段各平台采用的会员制收费方式,对于不能够商业化闭环的创业者而言,后续的付费率和付费意愿都不会很高。而现如今看来,对于即使能够实现商业化闭环的创业者而言,性价比也是影响其使用产品的关键因素。

而除了Runway之外,Pika和Pixverse也找到了自己的赛道。从他们最新更新的版本中可以看到,这两家重点是训练了一些用户能够直接使用的特效效果,“虽然比喻可能会不太恰当,但是有点接近之前抖音做的那种贴纸。”洋芋酱AIgen说道。

比如在10月底万圣节期间,PixVerse V3版本新增了不少万圣节主题的特效,包括僵尸模式、巫师帽和怪物入侵等主题效果,还有类似于Pika很火的AI捏捏特效,视频延长功能,用户可以为已有视频额外增加5-8秒的内容,并能精确控制新增片段的内容走向。

而随着最近《毒液:最后一舞》电影的上映,PixVerse基于最新视频模型PixVerse V3推出了新特效“我们是毒液”的视频效果,能够一键将图片生成酷炫毒液动画。

当前,在社交平台上,这种鬼畜特效非常受用户欢迎。此前Pika在1.5版本中,就推出了AI捏捏的特效,一经推出,就备受用户喜爱,其也靠着这一波特效,实现了弯道超车。而和Pika差不多时间开始增长的海螺AI,其实也是靠人物表演和meme表情包直接拉爆了海外舆论,弯道超车。

Pika的AI捏捏特效

事实上,尽管海螺AI推出时间较晚,但行业从业者对海螺AI的评价并不低。“海螺AI在人物动作上的表现很厉害,最近何炅和黄磊打架的AI生成视频,就是通过海螺AI生成。”洋芋酱AIgen说道。

不过,海螺AI更重要的是实现了“国内开花,墙外香”的效果。作为国内AI公司MiniMax在海外推出的AI视频生成平台,其一经推出,搜索热度持续攀升。

据“AI产品榜”统计,海螺AI网页版9月访问量大涨860%,登顶9月全球及国内增速榜首。海外用户纷纷在社交平台分享使用体验,普遍认为海螺AI是目前市面上最出色的AI视频生成工具之一。

而凭借产品在海外市场的爆火,MiniMax在商业化能力上,已经走在大模型六小虎的前列。

相比较来说,像Vidu和智谱清影这一类的平台,在主体一致性和人物稳定性中,视频生成时长等方向上正在不断进化,但尚未形成专属于自己风格的赛道和独特的竞争优势。

尽管AI视频生成技术正不断进化,并衍生出具有特色的细分赛道。但信达证券研报也显示,AI视频生成技术在人物一致性、所需时长、画面质量等方面仍需进一步提升,以满足商业化水准。

同时,目前主流AI视频工具还处在视频生成竞争的阶段,且大多数为单一功能产品,仍需要多种不同的视频创作工具串联使用才能达到直接输出可商业化视频的效果。

未来,AI视频生成大模型平台,仍需要不断迭代进化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/13391.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

redis实现消息队列的几种方式

一、了解 众所周知,redis是我们日常开发过程中使用最多的非关系型数据库,也是消息中间件。实际上除了常用的rabbitmq、rocketmq、kafka消息队列(大家自己下去研究吧~模式都是通用的),我们也能使用redis实现消息队列。…

JVM(一、基础知识)

JVM虚拟机的灵魂三问 JVM是什么? 广义上是一种规范,狭义上的是JDK中的JVM虚拟机,虚拟机模拟计算机的组成部分,可以运行我们写的应用程序,是对操作系统的一层抽象,把我们的应用程序和操作系统解耦&#xff0…

问题分析与解决:Android开机卡动画问题分析

1. 问题背景及描述 在一个android设备的开发的项目中遇到了一个比较典型的问题:在主板贴片完成后,首次刷入androdi固件验证时,遇到了按键出发开机后,系统启动到android动画界阶段时一直循环卡在此阶段,无法进入桌面。如下如所示: 此问题在许多android项目的首次点亮阶段均…

视频会议接入GB28181视频指挥调度,语音对讲方案

传统的视频会议指挥调度系统目前主流的互联网会议大部分都是私有协议,功能都很独立。目前主流的视频监控国标都最GB平台,新的需求要求融合平台要接入监控等设备,并能实现观看监控接入会议,实时语音设备指挥现场工作人员办公实施。…

跟着尚硅谷学vue2—进阶版1.0—组件化编程

2. Vue 组件化编程 1. 传统方式和使用组件方式编写的对比 1. 传统方式编写应用 2. 使用组件方式编写应用 2. 模块与组件、模块化与组件化 1. 模块 理解: 向外提供特定功能的 js 程序, 一般就是一个 js 文件为什么: js 文件很多很复杂作用: 复用 js, 简化 js 的编写, 提高 j…

WebRTC视频 01 - 视频采集整体架构

一、前言: 我们从1对1通信说起,假如有一天,你和你情敌使用X信进行1v1通信,想象一下画面是不是一个大画面中有一个小画面?这在布局中就叫做PIP(picture in picture);这个随手一点&am…

【大数据学习 | HBASE高级】rowkey的设计,hbase的预分区和压缩

1. rowkey的设计 ​ RowKey可以是任意字符串,最大长度64KB,实际应用中一般为10~100bytes,字典顺序排序,rowkey的设计至关重要,会影响region分布,如果rowkey设计不合理还会出现region写热点等一系列问题。 …

Spring Boot编程训练系统:架构设计与实现技巧

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及,互联网成为人们查找信息的重要场所,二十一世纪是信息的时代,所以信息的管理显得特别重要。因此,使用计算机来管理编程训练系统的相关信息成为必然。开发合适…

刘知远LLM——大模型微调:prompt-learningdelta tuning

文章目录 背景&概览Prompt-learningdelta tuning增量式指定式重参数化式 OpenPrompt工具包 对应视频P41-P57 如何高效使用大模型?涉及到NLP的前沿技术,如prompt-learning&delta tuning。 prompt-learning对学习大模型范式的改变,del…

Spring Boot编程训练系统:性能优化实践

摘要 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了编程训练系统的开发全过程。通过分析编程训练系统管理的不足,创建了一个计算机管理编程训练系统的方案。文章介绍了编程训练系统的系统分析部分&…

电子应用产品设计方案-4:基于物联网和人工智能的温度控制器设计方案

一、概述 本温度控制器旨在提供高精度、智能化、远程可控的温度调节解决方案,适用于各种工业和民用场景。 二、系统组成 1. 传感器模块 - 采用高精度的数字式温度传感器,如 TMP117,能够提供精确到 0.01C 的温度测量。 - 配置多个传感器分布在…

如何在 Ubuntu 24.04 上安装和配置 Fail2ban ?

确保你的 Ubuntu 24.04 服务器的安全是至关重要的,特别是如果它暴露在互联网上。一个常见的威胁是未经授权的访问尝试,特别是通过 SSH。Fail2ban 是一个强大的工具,可以通过自动阻止可疑活动来帮助保护您的服务器。 在本指南中,我…

同三维T610UDP-4K60 4K60 DP或HDMI或手机信号采集卡

1路DP/HDMI/TYPE-C(手机/平板等)视频信号输入1路MIC1路LINE OUT,带1路HDMI环出,USB免驱,分辨率4K60,可采集3路信号中其中1路,按钮切换,可采集带TYPE-C接口的各品牌手机/平板/笔记本电脑等 同三维…

Kafka--关于broker的夺命连环问

目录 1、zk在kafka集群中有何作用 2、简述kafka集群中的Leader选举机制 3、kafka是如何处理数据乱序问题的。 4、kafka中节点如何服役和退役 4.1 服役新节点 1)新节点准备 2)执行负载均衡操作 4.2 退役旧节点 5、Kafka中Leader挂了,…

Web项目版本更新及时通知

背景 单页应用,项目更新时,部分用户会出更新不及时,导致异常的问题。 技术方案 给出版本号,项目每次更新时通知用户,版本已经更新需要刷新页面。 版本号更新方案版本号变更后通知用户哪些用户需要通知?…

Android音视频直播低延迟探究之:WLAN低延迟模式

Android WLAN低延迟模式 Android WLAN低延迟模式是 Android 10 引入的一种功能,允许对延迟敏感的应用将 Wi-Fi 配置为低延迟模式,以减少网络延迟,启动条件如下: Wi-Fi 已启用且设备可以访问互联网。应用已创建并获得 Wi-Fi 锁&a…

Appium配置2024.11.12

百度得知:谷歌从安卓9之后不再提供真机layout inspector查看,仅用于支持ide编写的app调试用 所以最新版android studio的android sdk目录下已经没有了布局查看工具... windows x64操作系统 小米k30 pro手机 安卓手机 Android 12 第一步&#xff1a…

前端使用Canvas实现网页电子签名(兼容移动端和PC端)

实现效果: 要使用Canvas实现移动端网页电子签名,可以按照以下步骤: 在HTML文件中创建一个Canvas元素,并设置其宽度和高度,以适配移动设备的屏幕大小。 // 创建一个canvas元素 let canvas document.createElement(&q…

使用 Python 实现高效网页爬虫——从获取链接到数据保存

前言 在这个时代,网络爬虫已成为数据分析与信息收集不可或缺的技术之一。本文将通过一个具体的Python项目来介绍如何构建一个简单的网络爬虫,它能够自动抓取指定网站的文章链接、标题、正文内容以及图片链接,并将这些信息保存为CSV文件。 目标网站 一、准备工作 在开始编…

跟着尚硅谷学vue2—进阶版4.0—Vuex1.0

5. Vuex 1. 理解 Vuex 1. 多组件共享数据-全局事件总线实现 红线是读&#xff0c;绿线是写 2. 多组件共享数据-vuex实现 vuex 不属于任何组件 3. 求和案例-纯vue版 核心代码 1.Count.vue <template><div><h1>当前求和为&#xff1a;{{ sum }}</h1&…