cha

OpenAI推出视频生成模型:sora「理解和模拟现实世界实现AGI的里程碑」

 


  OpenAI今天推出文字生成视频模型?


  OpenAI正在教人工智能理解和模拟运动中的物理世界,旨在训练能够帮助人们解决需要真实世界交互的问题的


模型:sora


  Sora是一种文本生成视频模型。Sora 能够生成长达一分钟的视频,同时保持视觉质量并遵循用户的提示


  提示词:无人机拍摄大苏尔加雷点海滩上海浪拍打崎岖悬崖的景象。湛蓝的海水拍打出白色的浪花,夕阳的金


光照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔,绿色的灌木丛覆盖着悬崖边缘。从公路到海滩的陡峭落差


非常壮观,悬崖的边缘突出海面。这里的景色捕捉到了海岸的原始之美和太平洋海岸公路的崎岖地貌。



  今天,Sora 开始向安全的红队人员提供服务,以评估可能存在危害或风险的关键领域。OpenAI还授权一些视觉


艺术家、设计师和电影制作人访问,以获得关于如何推进模型对创意专业人士最有帮助的反馈意见。


  提示:三维动画中,一只圆滚滚、毛茸茸的小动物,睁着一双富有神采的大眼睛,在生机勃勃的魔法森林中探


险。这只生物是兔子和松鼠的奇异混合体,有着柔软的蓝色皮毛和长满条纹的尾巴。它沿着波光粼粼的小溪蹦蹦跳


跳,眼睛睁得大大的,充满了好奇。森林里充满了神奇的元素:会发光和变色的花朵、长着紫色和银色树叶的树木


,还有像萤火虫一样的小浮光。这只生物停下来,与一群围着蘑菇环跳舞的小精灵嬉戏。它抬头仰望着一棵发光的


大树,这棵树似乎是森林的中心


  sora特点如下:


  Sora 能够生成具有多个角色、特定类型运动以及主题和背景的准确细节的复杂场景。该模型不仅理解用户在提


示中要求的内容,还理解这些事物在物理世界中的存在方式?


  提示:一只猫吵醒了熟睡的主人,要求吃早餐。主人试图不理这只猫,但这只猫又想出新招,最后主人从枕头


下拿出了偷偷藏起来的点心,让这只猫多睡一会儿。


  该模型对语言有着深刻的理解,能够准确解释提示并生成具有生动情感表达的引人入胜的角色。Sora 还可以在


单个生成的视频中创建多个镜头,准确地保留角色和视觉风格


  提示:纽约市像亚特兰蒂斯一样沉没。鱼、鲸鱼、海龟和鲨鱼在纽约街头游来游去


  当前模型存在一些弱点?


  它可能在准确模拟复杂场景的物理过程方面遇到困难,并且可能无法理解特定的因果关系实例。例如,一个人


可能会咬下一块饼干,但之后,饼干上可能没有咬痕。 该模型也可能混淆提示的空间细节,例如混淆左右,并且可


能在描述随时间推移发生的事件时遇到困难,比如跟踪特定的摄像机轨迹。


  sora技术原理


  Sora 是一个扩散模型,它通过从一个看起来像静态噪音的视频开始,并逐步通过多个步骤去除噪音来生成视频



  Sora 能够一次性生成整个视频,也可以延长生成的视频以使其更长。通过让模型在每个时刻具有多帧的前瞻性


,我们解决了一个具有挑战性的问题,即确保主体即使暂时离开视野,也保持不变。


  与 GPT 模型类似,Sora 使用 Transformer 架构,解锁了卓越的扩展性能。


  OpenAI将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁类似于 GPT 中的一个令牌。通过统一的


数据表示方式,可以训练扩散 Transformer 处理比以前更广泛的视觉数据,跨越不同的持续时间、分辨率和纵横比



  Sora 建立在过去的 DALL·E 和 GPT 模型研究基础之上。它使用了 DALL·E 3 中的重述技术,这涉及为视觉


训练数据生成高度描述性的标题。因此,该模型能够更忠实地遵循用户在生成的视频中的文本指令。


  除了能够仅根据文本指令生成视频外,该模型还能够使用现有静态图像生成视频,以准确并注意细节地为图像


内容添加动画。该模型还可以使用现有视频进行扩展或填充缺失的帧。


  Sora 为能够理解和模拟现实世界的模型奠定了基础,我们相信这将是实现通用人工智能的重要里程碑。


  结语?


  英伟达人工智能领导者jimfan 评价:


  如果你认为 OpenAI 的 Sora 就像 DALLE 一样是一个创意玩具,那你就错了。Sora 是一个数据驱动的物理引


擎。它是许多世界的模拟,无论是真实的还是幻想的。这个模拟器通过一些去噪和梯度数学来学习复杂的渲染、"直


觉" 物理、长期推理和语义基础。


  如果 Sora 是在 Unreal Engine 5 上使用大量合成数据进行训练,我一点也不会感到惊讶。


  接下来:添加更多的模态和条件,然后我们将拥有一个完整的数据驱动 UE,将替代所有手工设计的图形流水线




您可能还会对下面的文章感兴趣:

登录 注册 退出