OpenAI Sora如何使用?

引言:OpenA推出首款AI视频模型Sora,震惊世界!

Sora是什么?

Sora是OpenAI最新发布的文本生成视频(Text to Video)大模型,能生成长达60秒的视频

Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景,对语言的理解非常深刻,使其能够精准地识别用户的指令,并创造出表情丰富、情感生动的角色。此外,Sora还能在同一视频内制作多个镜头,同时确保角色的形象和整体的视觉风格保持一致。

Sora是基于DALL·E 3和ChatGPT模型的研究成果。它采用了DALL·E 3中的recaptioning technique,为视觉训练数据生成详细描述的标题。因此,模型能更准确地遵循用户在生成视频中的文字指令。

除了能从文字指令生成视频外,Sora还能将现有静止图像转化为视频,准确地动态展现图像内容并关注细节。此外,它还能扩展现有视频或填补视频中缺失的画面。

一、Sora如何申请

截至2024-02-25,Sora还没有面向大众开放测试,只有少数人有Sora的测试权限。当然有试用申请通道,但申请通过率不会高

如何申请?(据官方透露的消息,OpenAI近期大概率会宣布将Sora首批开放给Chatgpt Plus用户申请使用。所以,请务必提前准备好Chatgpt Plus。)

1、登录官网选择red-teaming-network申请:https://openai.com/form/red-teaming-network

2、填写表单:建议填写资料用英文。*为必填项,包括你的学历、公司、专业强项、计划如何使用Sora等等。如果自己不会写,可以参考案例,注意输入框有字数限制,别超过,否则会显示不全,影响申请

3、提交Submit

参考填写表单如下图:

保姆级申请教程(快去申请,不知道什么时候关闭!万一申请通过了,账号就也很值钱)

更推荐先订阅升级GPT4,因为现在升级GPT4比较简单。(据官方透露的消息,OpenAI近期大概率会宣布将Sora首批开放给Chatgpt Plus用户申请使用。所以,请务必提前准备好Chatgpt Plus。)

如何注册官方GPT以及升级GPT4?参考:国内一键注册官方GPT账号教程!无需手机验证码,一站式注册OpenAI-GPT官方账号。(附:如何购买ChatGPT Plus?信用卡付款失败怎么办?使用虚拟信用卡升级ChatGPT Plus 指南

二、Sora呈现能力

1.Sora凭借“60秒一镜到底”出场即巅峰

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Sora拥有很强大的底层技术,可以生成具有人物和场景一致性的长达60s的视频关于视频,可以看OpenAI官网:https://openai.com/sora

对比Runaway、PIKA、Pixverse这些AI视频领域的老牌玩家,还在对几秒几十秒的视频摩拳擦掌,单个视频长达1分钟已是碾压级的存在!在AI视频领域,2秒的视频和1分钟的视频之间,有着你难以想象的巨大技术鸿沟。

按照这个发展速度,AI辅助制作的3A游戏大作或许指日可待了!定制化的主角外形、定制化声音,可能比现在的捏脸更带感哦~

2.Sora实现了运动镜头的丝滑无缝衔接(雪后东京)

无论镜头怎么运动,人物、场景和视觉风格,都能保持神一般的一致性和稳定性!

物理世界模拟器!?

Sora还展现出超强的语义理解力,能深刻理解物理世界的存在规律与运行方式,包括特殊材质的反射与倒影,光影的变换,特定物品的运动轨迹……并将这个世界模拟出来。

OpenAI官网这样写:我们正在教AI去理解和模拟物理世界运动的模型,从而帮助人们解决需要现实世界交互的问题。

比如有一个个Sora生成的电影预告片,无论是自然风光、机甲装备、人物的羊毛头盔、太空服、皮肤肌理、神态动作,都极其逼真,转场也无比自然。

动物毛发这种对于好莱坞动画工厂都曾是难题的细节,也不在话下。

Sora可以让视频「变形」

Sora可以把两个风格迥异的视频,无比流畅地拼接在一起,让它们自然过渡,融为一体,真正做到了丝滑无缝!

前一秒还是无人机探索废墟,下一秒就是蝴蝶探索海底,你根本察觉不到啥时候切换的!

阿马尔菲海岸到冬季村:

文生图与Midjourney对比!

Prompt:Digital art of a young tiger under an apple tree in a matte painting style with gorgeous details

Prompt: Vibrant coral reef teeming with colorful fish and sea creatures

Prompt:A snowy mountain village with cozy cabins and a northern lights display, high detail and photorealistic dslr, 50mm f/1.2

三、Sora提示工程

和ChatGPT、Midjourney这些AI文本、AI绘画工具一样,Sora这种AI视频也是通过输入Prompt生成的,也就是我们俗称的「咒语」

Sora不仅听得懂「咒语」,还能精准捕捉「魔法师」的真实需求,洞察这些「咒语」在物理现实世界中的存在方式,并创造出充满生命力、情感丰富的角色。

Sora和过去的AI工具有一个极大的不同,它能自己去“发散思维”,去“扩充”提示词!

四、Sora原理剖析

核心技术就是Transformer+Diffusion

所谓Transformer+Diffusion,就是把Transformer对序列的处理能力(包括时间序列)将一张图片分成无数个小的patch,组成新的token,作为Decoder的block放到Diffusion框架中

在文本预测生成中,基本单位是 Token,Token 很好理解,就是一个单词或者单词的一部分。

Patch 的概念相对不那么好理解。

什么是patches?我们可以简单理解为一张完整的图片,被拆成NxN 的小方格,被分割成一块块的「补丁」。

这与大型语言模型中的“token”概念相似,token是文本数据的基本处理单元。

比如下面这张 224x224 的小狗图片,我们可以把它打碎成 196 张 16x16 的小图,这就叫做 Patches

但如果只是将二维的图像打碎变成patches图像块,对于视频生成任务还不够。因为视频是由包含时间序列的多张图片构成的,处理时必须考虑这些长时间范围patches序列的上下文关系,因此patches必须包含原始视频数据中的时间序列信息,因此OpenAI将patches升级成了包含时间信息的spacetime patches(时空补丁)。Spacetime patch就代表了视频中一小块特定时间和空间范围内的信息。

当我们理解了spacetime patches的概念之后,再来看待视频生成任务就非常好理解了。这就像chatGPT这种LLM做文本生成任务一样,从输入一段prompt开始,模型会采用的自回归的方式来预测接下来的每一个token。对于下图一系列视频帧的左上角而言,便是已知当前spacetime patches,这就如同我们给LLM输入的prompt,然后sora推测下一个spacetime patches,最后通过自回归的方式预测出组合视频画面中各个位置的spacetime patches,然后在组合起来,便得到了整个视频画面的持续运动过程。

Sora 之所以显得如此强大,在于以前的文本转视频方法需要训练时使用的所有图片和视频都要有相同的大小,这就需要大量的预处理工作来裁剪视频至适当的大小。而由于 Sora 是基于“Patch”而非视频的全帧进行训练的,它可以处理任何大小的视频或图片,无需进行裁剪。这就让 OpenAI 能够在大量的图像和视频数据上训练 Sora。因此,可以有更多的数据用于训练,得到的输出质量也会更高。例如,将视频预处理至新的长宽比通常会导致视频的原始构图丢失。一个在宽屏中心呈现人物的视频,裁剪后可能只能部分展示该人物。因为 Sora 能接收任何视频作为训练输入,所以其输出不会受到训练输入构图不良的影响。

更多原理解析请参考:OpenAI Sora:60s超长长度、超强语义理解、世界模型。浅析文生视频模型Sora以及技术原理简介

五、Sora应用展望

Sora掀起的新一轮风暴将带来哪些影响呢?

视频创作成本会大幅下降,很多需要训练动物演员、跟拍运动镜头、卡通特效制作、航拍空镜的画面,未来可以用Sora替代。

影视、娱乐、广告、设计、游戏等行业或将全新洗牌,

刚刚抵制完一轮AI的好莱坞,或许又将迎来新一轮罢工……

但是,Sora能完全取代这些行业的从业者吗

从目前的一些不足来看,不会。为何?原因有三:

1.虽然Sora已经极力模拟物理世界,但还是还是会犯许多不符合物理规律的错误。摔落的玻璃杯掉在地板上,Sora不会生成出玻璃碎片;如果是让玻璃杯原地爆炸,散落到地上的碎片也不会是呈正态分布。

2.Sora也似乎不擅长再现多个对象和角色之间的“复杂交互”。比如,即使两次指示“吹灭蜡烛以将其熄灭”和“蜡烛的光熄灭”,火也没有熄灭。

3.Sora 必须学习一些隐式的文本到 3D、3D 变换、光线追踪渲染和物理规则,才有可能精确地模拟视频像素。它必须理解游戏引擎的概念,才有可能生成工业生产级别的视频。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1555793.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

10个令人惊叹的AI工具

AI 确实改变了游戏规则;它彻底改变了我们工作、创造和与技术互动的方式。虽然 ChatGPT、DALLE 和 Midjourney 等巨头占据了大部分头条新闻,但还有很多其他不为人知的 AI 工具和技术,大多数都同样令人惊叹。 以下是十种你可能没有听说过但绝对…

6个最受欢迎的大模型本地运行工具

运行大型语言模型 (LLM)(如 ChatGPT 和 Claude)通常涉及将数据发送到 OpenAI 和其他 AI 模型提供商管理的服务器。虽然这些服务是安全的,但一些企业更愿意将数据完全离线,以保护更大的隐私。 本文介绍了开发人员可以用来在本地运…

codetop标签动态规划大全C++讲解(二)!!动态规划刷穿地心!!学吐了家人们o(╥﹏╥)o

一篇只有十题左右,写少一点好复习 1.目标和2.分割等和子集3.完全平方数4.比特位计数5.石子游戏6.预测赢家7.不同的二叉搜索树8.解码方法9.鸡蛋掉落10.正则表达式匹配11.通配符匹配12.交错字符串 1.目标和 给你一个非负整数数组 nums 和一个整数 target 。 向数组中…

WindowsTerminal 美化-壁纸随机更换

目录 一. 相关网址二. 壁纸随机更换思路三. 指定 WindowsTermina 壁纸路径四. 编写脚本,随机替换壁纸4.1 powershell脚本4.2 .bat批处理脚本 四. 配置定时任务,添加触发器五. 效果 一. 相关网址 官方下载 Windows Terminal 官方Github微软商店 美化 Oh …

力扣之1285.找到连续区间的开始和结束

题目 sql建表语句: Create table If Not Exists Logs (log_id int); Truncate table Logs; insert into Logs (log_id) values (1); insert into Logs (log_id) values (2); insert into Logs (log_id) values (3); insert into Logs (log_id) values (7); inse…

白板2-数学基础

高斯分布1-极大似然估计 高斯分布2-极大似然估计-无偏&有偏 高斯分布3-从概率密度角度高斯分布4-局限性高斯分布5-边缘概率及条件概率高斯分布6-求联合概率分布

基于SpringBoot vue 医院病房信息管理系统设计与实现

博主介绍:专注于Java(springboot ssm 等开发框架) vue .net php python(flask Django) 小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设,从业十五余年开发设计教学工作☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不然下次找…

DELL SC compellent存储的四种访问方式

DELL SC存储(国内翻译为 康贝存储,英文是compellent), compellent存储是dell在大概10多年前收购的一家存储,原来这个公司就叫做compellent。 本文的阅读对象是第一次接触SC存储的技术朋友们,如何访问和管理SC存储。总…

一条广告变现3W+,半个月涨粉30W!简直太香了!

今天给大家分享个变现很猛的赛道, 这个赛道,我一开始关注到的时候,是一两个月前吧, 当时看到的时候,相关的笔记流量很猛, 而且相关的账号,起的号也很多, 我当时是看到那么多人都…

《数据结构》--栈【概念应用、图文并茂】

本节讲完栈下次再讲一下队列,最后补充一个串,我们的线性结构基本就完事了。下图中黄色框框圈中的是我们今日份内容(分为两篇博客): 知识体系图 栈(Stack-LIFO)结构 栈的基础概念 栈(Stack)是一个后进先出(Last-In-First-Out)的一个特殊数据…

五种IO模型与阻塞IO

一、前言 在网络中通信的本质其实是网络中的两台主机的进程间进行通信,而进程通信的本质就是IO。 IO分为输入(input)和输出(output)站在进程的角度讲,进程出去数据为输出,外部数据进入进程为输…

ubunut声卡配置 播放视频没有声音的解决方法 alsamixer和pavucontrol的使用方法

文章目录 🌙ubuntu22.04网页没有声音,声卡提示Dummy Output🌙方法一:切换内核🌙方法二:使用知乎的方法 🌙ubuntu22.04 连接蓝牙耳机,1秒后断连解决方法ubuntu声音操作alsamixerpavuc…

边缘计算插上AI的翅膀会咋样?

人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,是新一轮产业革命的重要驱动力量。2022年底发布的ChatGPT将人工智能技术上升到了一个新的高度。如今&#x…

17岁孩子开发AI应用,4个月入百万,人人都是AI产品经理的时代快来了

随着AI时代的到来叠加经济下行,越来越多的独立开发者梦想着实现年入百万的壮举。 近日,这种小概率事件正在发生。 17岁高中生做了个AI APP,短短四个月销售额达100 万美元。 小伙儿Zach Yadegari(下面暂称小扎克)在X…

用IMX6UL开发板编写按键输入实验

在之前我们都是讲解如何使用IMX6UL的GPIO输出控制等功能,IMX6U的IO不仅能作为输出,而且也可以作为输入,而我们开发板上具有一个按键,按键肯定是连接了一个IO口的额,我们在这一节将会把IO配置成输入功能,读取…

codetop标签动态规划大全C++讲解(三)!!动态规划刷穿地心!!学吐了家人们o(╥﹏╥)o

每天复习一篇,只有十题左右 1.买卖股票的最佳时机2.买卖股票的最佳时机含手续费3.买卖股票的最佳时机III4.买卖股票的最佳时机IV5.打家劫舍6.打家劫舍II7.不同路径8.不同路径II9.最小路径和10.三角形的最小路径和11.两个字符串的删除操作12.编辑距离13.一和零 1.买卖…

强化学习笔记之【DDPG算法】

强化学习笔记之【DDPG算法】 文章目录 强化学习笔记之【DDPG算法】前言:原论文伪代码DDPG算法DDPG 中的四个网络代码核心更新公式 前言: 本文为强化学习笔记第二篇,第一篇讲的是Q-learning和DQN 就是因为DDPG引入了Actor-Critic模型&#x…

Ubuntu22.04 Docker 国内安装最靠谱教程

目前docker在国内安装常存在众所周知的网络问题,如果安装过程如果从官网地址安装以及安装之后从官网要拉取镜像都存在问题。这篇文章主要针对这两个问题总结最靠谱的docker安装教程。 1. docker安装 1.1 系统环境概述 Ubuntu 22.04linux内核版本 6.8(…

重学SpringBoot3-集成Redis(四)之Redisson

更多SpringBoot3内容请关注我的专栏:《SpringBoot3》 期待您的点赞👍收藏⭐评论✍ 重学SpringBoot3-集成Redis(四)之Redisson 1. 添加 Redisson 依赖2. 配置 Redisson 客户端3. 使用 Redisson 实现分布式锁4. 调用分布式锁5. 为什…

二进制的神奇操作——拆位法和贡献思想

拆位的引入 我们来思考这么一个问题,如果给你一个数组,让你去求一个数组里面所有连续子串的异或和的和,问你该怎么求? 我们该如何去处理,首先肯定是会想到暴力的思路,第一层循环遍历左端点,第…