继runway、pika、字节pixeldance、万兴“天幕”发布后,2月16日凌晨,“王炸”模型sora横空出世,ai视频生成迎来“gpt时刻”。
在open ai公布的48个样片中,sora展现出令人惊叹的视频生成效果,视频时长提升至1分钟,生成的角色表情逼真,还实现了多角度镜头切换与流畅分镜,可展现真实光影、运动和镜头移动效果。
据了解,sora是一个扩散transformer模型,通过采用diffusion transformer等技术处理不同持续时间、分辨率和比例的视频/图像,实现“世界模拟器”,达到理解真实世界的运动和物理能力。对比runway、pika等玩家,sora的特别之处在于,它能够理解和模拟真实世界,从而生成符合物理和运动学规律的复杂场景的超逼真视频。例如,当sora学习人吃汉堡的视频时,它记住的不仅是吃汉堡这一“具体画面”,还有“咬了就会有痕迹”这个“物理规律”,让ai生成的视频更真实。
业内人士指出,世界模拟器是ai生成视频的一种方式,它的成功会带动视频生成赛道的发展,加速视频生成的创新和成熟。
面对ai视频生成领域的广阔前景,国内各厂商正加大投入,推动ai视频生成进入全新时代。字节跳动于去年11月发布pixeldance模型,不仅在视频时长上实现了突破,还可通过描述(纯文本) 首帧指导(图片) 尾帧指导(图片),生成包含复杂场景和动作的视频,用上一个视频片段尾帧为下一个视频头帧提供指导思路。
aigc软件a股上市公司万兴科技于今年年初推出国内首个以音视频为核心的多媒体大模型万兴“天幕”。作为一家产品创新型公司,万兴科技很早就拥抱aigc,是首批开通azure open ai商用服务权限的国内企业,旗下wondershare filmora、万兴pdf、亿图图示等软件已进行aigc化升级,并推出万兴播爆、万兴智演、wondershare kwicut等aigc新品。
伴随sora发布,作为音视频多媒体垂类大模型的开拓者,万兴“天幕”备受关注,但据了解,其与sora在定位、能力、用户群等方面具有一定的差异化。定位方面,万兴“天幕”是音视频多媒体创作垂类大模型,由视频大模型、音频大模型、图片大模型、语言大模型组成,sora则是基于视觉数据的底层通用模型,相当于视频领域的midjourney;能力方面,万兴“天幕”涵盖当前市面上语言、音频、图像的大模型能力,以及sora核心的文生视频能力,是万兴“天幕”的原子能力之一;用户方面,与sora偏向影视公司或专业机构不同,万兴“天幕”面向更细分垂直的市场,包括泛知识、泛营销、泛娱乐等领域,相关能力已在海外规模化商用。
ai视频生成赛道前景广阔。数据显示,截至2023年末,仅国内短视频用户规模已突破10亿人,不谈增量市场可能带来的红利,仅是为这10多亿用户提供ai视频创意服务,就可做大量文章。
在业内人士看来,sora是agi(通用人工智能)实现的重要里程碑。sora的出现将全球目光聚焦于视频生成领域,验证了视频为王的趋势,也进一步验证了无视频不传播的时代,“视频 大模型”的应用市场空间扩展。
但与此同时,还有一个大模型无法解决全世界的问题。伴随全球算力需求爆发式增长,大模型正从全球化走向本土,算力本地布局、更本土化的数据、更本土化的应用是大势所趋。例如,在open ai发布的demo视频“与中国龙一起庆祝农历新年”中,sora就无法准确生成视频画面中的中文。
日前,国泰君安证券发布研报称,sora模型推动ai多模态领域飞跃式发展,ai创作等相关领域将迎来深度变革,ai赋能范围进一步扩大,推荐万兴科技、金山办公、科大讯飞、虹软科技等标的。
一年前,chatgpt以迅雷不及掩耳之势走向全球,为文本创作领域带来重大变革,并掀起了全球范围内的“百模大战”。
一年后的今天,sora到来,ai视频生成赛道或许迎来一个新的“chatgpt时刻”,多模态大模型的升维竞赛有望打响,ai视频生成的技术和产品有望加速发展。
审核:李昌怀
编辑:李芬