开年王炸!OpenAI让文字直接生成视频 现实将被颠覆

发布日期:2024-06-03 14:30    点击次数:62

  OpenAI在AI生成视频领域扔出一枚“深水炸弹”。

  OpenAI首个视频生成模型发布

  sora描绘的:一群纸飞机在茂密的丛林中翩翩起舞,在树林中穿梭,就像候鸟一样。

  据OpenAI官网,OpenAI首个视频生成模型Sora发布,完美继承DALL·E3的画质和遵循指令能力,能生成长达1分钟的高清视频。

  可以说,Sora出道即王炸,它能够根据用户的一句话生成长达一分钟的视频,且视频流畅度和稳定性皆在水准之上。

  效果炸裂!文字直接生成视频

  目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

  而最重要的是,在这48个演示视频里,几乎看不出AI生成的痕迹。

  不要眨眼,带你看一下Sora的杰作:

  AI想象中的龙年春节,红旗招展人山人海。

  有紧跟舞龙队伍抬头好奇观望的儿童,还有不少人掏出手机边跟边拍,海量人物角色各有各的行为。

  一位时髦女士漫步在东京街头,周围是温暖闪烁的霓虹灯和动感的城市标志。

  一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅,电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间,独特的电影风格、采用35毫米胶片拍摄,色彩鲜艳。

  竖屏超近景视角下,这只蜥蜴细节拉满:

  “穿过东京郊区的火车窗外的倒影”。

  “赛博朋克背景下机器人的生活故事”。

  网友直呼:电影业要彻底颠覆了!

  OpenAI首席执行官奥特曼(Sam Altman)周四在X网站上让该平台用户把自己想给Sora的文字描述提交给他。然后,他分享了Sora根据这些描述生成的视频。

  “我们想向你们展示Sora能做什么,”他在X上写道,“不用担心你的要求太细,或是难度太大!”

  有人提出想要“一段海上自行车比赛的视频,让各种动物作为运动员骑自行车,采用无人机拍摄视角”。奥特曼在回复中发布了一段由Sora生成的视频,视频中有企鹅、海豚和其他水生生物骑自行车。

  另一段视频显示,一位身穿围裙、面带微笑的白发女士邀请观众进入她的厨房。有人向奥特曼要一段“由一名祖母辈的网红主持的自制团子烹饪课程,背景是一个质朴的托斯卡纳乡村厨房,并配有电影级的灯光”,之后Sora生成了这段AI视频。

  网友直呼game over,工作要丢了,甚至有人已经开始“悼念”一整个素材行业,还有网友表示,电影业要彻底颠覆了。

  Sora的弱点:难以呈现复杂的物理变化规律

  对于Sora当前存在的弱点,OpenAI也不避讳,指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。

  例如在演示视频中,“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,一些凭空出现或消失。

  再如一位寿星向生日蛋糕上的蜡烛吹气,但蜡烛没有任何变化;或者篮球直接穿透了篮筐,而不是从篮筐中进球。

  OpenAI表示,他们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。

  随后OpenAI解释了Sora的工作原理,Sora是一个扩散模型,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,视频也从最初的随机像素转化为清晰的图像场景。Sora使用了Transformer架构,有极强的扩展性。

  如今,Sora正面向部分成员开放,以评估关键领域的潜在危害或风险。同时,OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入,期望获得宝贵反馈,以推动模型进步,更好地助力创意工作者。OpenAI提前分享研究进展,旨在与OpenAI以外的人士合作并获取反馈,让公众了解即将到来的AI技术新篇章。

  Sora的发布引发业内广泛讨论

  一位YouTube博主Paddy Galloway发表了对Sora的感想,他表示内容创作行业已经永远的改变了,并且毫不夸张。“我进入YouTube世界已经15年时间,但OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了,素材网站将变得无关紧要,任何人都可以无壁垒获得难以置信的产品,内容背后的‘想法’和故事将变得更加重要。”

  一位硅谷AI公司的从业者称,根据她的使用体验,Sora在演示视频中展现的能力远远超Pika和Runway,“Pika只能生成3-15秒的视频,Sora能直接生成一分钟的视频。从画面效果和时长来看,Sora肯定是一个重要突破。”

  有人工智能专家和分析师表示,Sora视频的长度和质量超出了迄今为止所见的水平。伊利诺伊大学厄巴纳-香槟分校信息科学教授Ted Underwood称:“我没想到在接下来的两到三年内还会出现这种持续、连贯的视频生成水平。”

  但牛津互联网研究所客座政策研究员Mutale Nkonde担心,这些工具可能会嵌入社会偏见,对人们的生活产生影响,并能将仇恨或令人痛心的现实事件通过文字描述变成逼真的镜头。



相关资讯