工业和信息化部主管 中国电子报社主办
收藏本站 投稿

人工智能

零样本生成10秒视频!谷歌视频生成大模型VideoPoet来了

近日,谷歌最新推出的视频生成大模型VideoPoet引爆了科技舆论场。戴着耳机听音乐的“汪星人”、一起打扑克的熊猫、正在打哈欠的蒙娜丽莎......这些以假乱真的视频画面都出自谷歌VideoPoet之手。值得关注的是,VideoPoet 一次可生成 10 秒超长且有连贯大动作的视频,这与此前仅有小幅动作的视频生成技术相比有了很大提升,标志着视频生成大模型实现了全新的突破。

据谷歌官方介绍,VideoPoet 通过选择将文本作为输入,能够在各种以视频为中心的输入和输出上执行多任务处理,包括文本到视频、图像到视频、视频到音频、风格转化、绘画等。

与其他视频生成模型不同的是,谷歌VideoPoet 并非常见的扩散模型,而是多模态大模型,还具备零样本视频生成能力,可节省大量数据和计算资源,且输出的画面更加稳定、动作更逼真,清晰度也得到了明显提升。

基于这个视频生成大模型,用户只需输入一段提示信息,或者上传一张图片,就可以将之变成一段视频。它还能够根据文本提示信息对输入的视频重新进行风格化设计,比如加入烟雾、雨露、阳光等;或是通过增补画面将之拓展为一段新视频,亦或是改变物体运动轨迹生成不同的动作,比如让蒙娜丽莎移动身体、改变表情等;甚至可以直接生成音频、生成故事。

要实现这些功能并不容易。谷歌的方法是将多种视频生成功能无缝集成到单一的大语言模型中,而不依赖针对各个任务分别训练的专用组件。比如,通过自回归语言模型在视频、图像、音频和文本之间进行跨模态学习,并以自回归方式预测序列中下一个视频或音频语义单元;在大语言模型训练框架中引入多种多模态生成学习目标,包括文本到视频、文本到图像、图像到视频、视频帧延续、视频修复/扩展、视频风格化和视频到音频等,这些任务可以相互结合,实现额外的零样本功能。

对于未来的研究方向,谷歌研究人员表示,VideoPoet 框架将会实现“Any-to-Any”(任意对任意))的生成,比如扩展文本到音频、音频到视频,以及视频字幕等等。

实际上,视频生成大模型已经悄悄地火了。前有RunWay 的 Gen-2、Pika Lab 的 Pika 1.0,后有微软亚洲研究院的超长视频生成模型NUWA-XL、Stability AI的AI视频大模型Stable Video Diffusion以及国内市场阿里达摩院、360集团、美图等公司上线的文生视频大模型,再到如今谷歌推出的多模态视觉生成大模型VideoPoet,视频生成大模型正在快速迭代,或将成为生成式人工智能领域的下一个高地。

责任编辑:宋婧


声明

1、本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2、本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3、作者投稿可能会经我们编辑修改或补充;4、如本站的文章或图片存在版权,请拨打电话010-88558835进行联系,我们将第一时间处理。

相关链接

视频

专题

深入学习贯彻党的二十大精神·工信系统在行动

当前,全国工业和信息化系统正进一步深入学习党的二十大精神,将二十大精神贯彻落实到具体举措和实际行动。为深入学习宣传贯彻党的二十大精神,中国电子报推出“深入学习贯彻党的二十大精神·工信系统在行动”专栏,通过调研采访报道各地贯彻落实党的二十大精神的具体举措、典型案例,反映各地实干担当、求真务实的精神风貌。敬请关注。

学习贯彻习近平新时代中国特色社会主义思想主题教育

学习贯彻习近平新时代中国特色社会主义思想主题教育开展以来,全国工信系统牢牢把握“学思想、强党性、重实践、建新功”的总要求,多措并举扎实推进主题教育高质量开局、高标准起步。

聚焦2023年全国两会

北京3月5日电 第十四届全国人民代表大会第一次会议5日上午在北京人民大会堂开幕。近3000名新一届全国人大代表肩负人民重托出席盛会,认真履行宪法和法律赋予的神圣职责。

2023年全国工业和信息化工作会议

1月11日,全国工业和信息化工作会议在北京召开。会议以习近平新时代中国特色社会主义思想为指导,全面贯彻党的二十大精神,认真贯彻落实中央经济工作会议精神和党中央、国务院决策部署,总结2022年工作,部署2023年重点任务。

第5届中国—东盟信息港论坛

2022年9月16日,由国家互联网信息办公室、国家发展和改革委员会、工业和信息化部、广西壮族自治区人民政府联合主办的第五届中国—东盟信息港论坛将在广西南宁开幕。该论坛主要围绕数字经济发展和智能互联、数据互通、合作互利等开展交流研讨、建言献策,进一步推进互联网经贸服务、人文交流和技术合作。

世界超高清视频(4K/8K)产业发展大会

会议

2023全球数字贸易创新大赛

11月22—23日,2023全球数字贸易创新大赛总决赛在杭州举行。大赛是第二届全球数字贸易博览会重要活动之一,今年为首次举办。大赛设置人工智能元宇宙和区块链Web3.0两个赛道,吸引了近200家优秀企业及项目团队参与,其中,100余家入围半决赛,24家进入总决赛。

2023世界VR产业大会

10月19日,由工业和信息化部、江西省人民政府共同主办的2023世界VR产业大会在江西南昌开幕。江西省委书记、省人大常委会主任尹弘,工业和信息化部副部长徐晓兰,江西省委常委、南昌市委书记李红军出席开幕式并致辞。开幕式由江西省委副书记、省政府省长叶建春主持。

2023世界显示产业大会

9月7日-8日,由四川省人民政府、工业和信息化部主办的2023世界显示产业大会在四川省成都市召开。四川省委副书记、省长黄强,工业和信息化部党组成员、副部长张云明,重庆市政府党组成员、副市长江敦涛,德国联邦经济发展和对外贸易协会主席米夏埃尔·舒曼出席开幕式并先后致辞。

2023世界超高清视频产业发展大会

5月8日-10日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2023世界超高清视频产业发展大会在广州召开。5月9日,广州市委副书记、市长郭永航,中央广播电视总台副台长胡劲军,国家广播电视总局副局长朱咏雷,工业和信息化部总工程师赵志国,广东省委副书记、省长王伟中出席开幕式并先后致辞。

2022世界集成电路大会

11月17日,由工业和信息化部、安徽省人民政府共同主办的2022世界集成电路大会在安徽省合肥市召开。安徽省委书记、省人大常委会主任郑栅洁出席会议。安徽省委副书记、省长王清宪,工业和信息化部党组成员、副部长王江平出席开幕式并致辞。

世界显示产业大会

本周排行