5月15日,谷歌举办一年一度的I/O开发者大会,在这场年度盛事上谷歌总计推出了100多项产品上新与更新,发布了14款大模型应用。
如果要形容,就是对OpenAI展开了军火库的狂轰滥炸。其中最受网友关注的无疑是AI视频生成模型,代号「Veo」。
谷歌方面制作了一个宣传品介绍产品的前世今生:
先提前小结一下:
Veo视频模型,支持通过文本提示词生成超过1分钟的1080P超清视频。在文本语义理解与复现、视频主体对象的一致性、运镜、画面连贯性、场景切换、光影效果等等方面,完全称得上媲美OpenAI红极一时的Sora大模型。
对于Sora发布至今已有3个月还在放鸽子,谷歌方面希望Voe能够以最快速度进入消费应用市场,目前已经与好莱坞一些特效公司开始谈判。
在所有的视频生成案例当中,最具代表性的无疑是下面这个1分23秒的超长一镜到底视频:
谷歌给出的提示词为:
「一个快速穿梭于繁华的反乌托邦城市中,明亮的霓虹灯、飞行汽车、薄雾、夜晚、镜头眩光和体积光线的镜头。
通过未来主义的城市肆虐快速追踪镜头,明亮的霓虹灯标,天空中的星舰,夜晚。一辆汽车的霓虹全息图以光速行驶,电影般的惊人细节,体积光。汽车离开隧道,回到真实世界里边的香港都市。」
这个视频从观感上还是相当惊艳的,谷歌复现了Sora最拿手的穿越风格的视频场景。
并且主体对象?跑车的一致性上相当稳定,画面丝滑流畅。
再看一些其他的生成视频案例,均为写实风格,拟真程度以假乱真:
提示词:「在烧烤架上,鸡肉和青椒串烤的特写镜头,火焰在旁燃烧。焦距浅,轻烟袅袅,色彩鲜艳。」
提示词:「许多斑点水母在水下蠕动。它们的身体透明,在深海中发光。」
提示词:「一名孤独的牛仔骑着马穿越美丽日落的开阔平原,柔和的光线,温暖的色彩。」
提示词:「一艘宇宙飞船在宇宙的浩瀚中飞驰,星星在其旁划过,高速飞行,科幻感十足。」
提示词:「一只金毛寻回犬在蜿蜒的山间小径上行走,它兴奋地摇着尾巴,探索着荒野的景色和气味。」
相对于OpenAI Sora的放鸽子,谷歌已经迅速将Veo视频模型创建了一个生成创作平台Video-Fx。
使用方法基本傻瓜式,直接在文本框输入提示词,然后点击“生成”(Create Video)即可。目前处于早期测试阶段,还无法提供任何的编辑能力。
谷歌Video-Fx创作平台支持一次性生成4条视频,相比于Runway、Pika等主流AI视频生成平台,还是非常大方了!
值得一提的是,Veo还提供了一个名叫“Storyboard”的创作模式,支持为生成的无声AI视频一键添加背景音乐。
Veo是如何工作的呢?
根据谷歌的介绍,Veo更像是一个视频生成模型的大合集。
谷歌融合了GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere、Transformer和Gemini等等,将许多的技术概念与大模型架构的优点融合集于一体。
例如,Phenaki是谷歌很早之前便推出的文生视频模型,采用了一个双向掩码转换器架构。在视频帧之间的切换、一致性、关联性方面非常优秀。
WALT则是深度学习领域的一种视频微调技术,可关注模型内部的激活层,通过权重调整来改进模型性能。
Gemini是谷歌目前最强的大语言模型,在语义理解能力上可与GPT-4相媲美。
所以,从这个「集中力量办大事」的姿态,以及产品商业化推进的步伐,就不难看出谷歌是对Veo下了血本,誓要与OpenAI的Sora一较高下。
目前,谷歌已经将Veo视频模型整合在文生视频平台Video-Fx,任何人都可以免费申请,也向开发者开放API。
申请地址:
https://aitestkitchen.withgoogle.com/zh/tools/video-fx
上一篇:苹果计划自建AI服务器数据中心:苹果COO访问台积电总部,探讨AI芯片开发与代工
5月15日,谷歌举办一年一度的I O开发者大会,对OpenAI展开了军火库的狂轰滥炸。其中最受网友关注的无疑是AI视频生成模型,代号「Veo」。
苹果COO Jeff Williams低调拜访台积电,台积电总裁魏哲家亲自接待。双方主要讨论了苹果自研AI芯片的开发,以及台积电使用先进制程技术生产芯片等事宜。
OpenAI CEO奥特曼承诺的小作文来了,一发就是两篇。一篇短的,回应了离职霸王条款;另一篇超长,讲了OpenAI的整体安全战略。
刚刚!OpenAI发文澄清:ChatGPT声音是由400多个配音演员数据训练的,并非知名女歌手|钛媒体AGI
前任OpenAI「超级对齐团队」负责人Jan Leike在网上自曝离职的真正原因:奥特曼坚决砍掉了他与Ilya用于AI安全与“对齐”的算力。
苹果将在6月10日举行的WWDC全球开发者大会,宣布多项全新的生成式AI功能,除iPhone端侧的AI功能外,也将提供云端在线AI服务。
Lingo灵构笔记
火山写作
思默回答
宙语Cosmos
小鱼AI写作
一码千言
晓语台
万彩AI公文频道
墨鱼Aigc公文写作
网站地图
Sora最强竞品!谷歌最新AI视频生成模型Veo详解:时长超1分钟、1080P丝滑丨附内测体验链接
5月15日,谷歌举办一年一度的I/O开发者大会,在这场年度盛事上谷歌总计推出了100多项产品上新与更新,发布了14款大模型应用。
如果要形容,就是对OpenAI展开了军火库的狂轰滥炸。其中最受网友关注的无疑是AI视频生成模型,代号「Veo」。
谷歌方面制作了一个宣传品介绍产品的前世今生:
先提前小结一下:
Veo视频模型,支持通过文本提示词生成超过1分钟的1080P超清视频。在文本语义理解与复现、视频主体对象的一致性、运镜、画面连贯性、场景切换、光影效果等等方面,完全称得上媲美OpenAI红极一时的Sora大模型。
对于Sora发布至今已有3个月还在放鸽子,谷歌方面希望Voe能够以最快速度进入消费应用市场,目前已经与好莱坞一些特效公司开始谈判。
Veo生成作品欣赏
在所有的视频生成案例当中,最具代表性的无疑是下面这个1分23秒的超长一镜到底视频:
谷歌给出的提示词为:
「一个快速穿梭于繁华的反乌托邦城市中,明亮的霓虹灯、飞行汽车、薄雾、夜晚、镜头眩光和体积光线的镜头。
通过未来主义的城市肆虐快速追踪镜头,明亮的霓虹灯标,天空中的星舰,夜晚。一辆汽车的霓虹全息图以光速行驶,电影般的惊人细节,体积光。汽车离开隧道,回到真实世界里边的香港都市。」
这个视频从观感上还是相当惊艳的,谷歌复现了Sora最拿手的穿越风格的视频场景。
并且主体对象?跑车的一致性上相当稳定,画面丝滑流畅。
再看一些其他的生成视频案例,均为写实风格,拟真程度以假乱真:
提示词:「在烧烤架上,鸡肉和青椒串烤的特写镜头,火焰在旁燃烧。焦距浅,轻烟袅袅,色彩鲜艳。」
提示词:「许多斑点水母在水下蠕动。它们的身体透明,在深海中发光。」
提示词:「一名孤独的牛仔骑着马穿越美丽日落的开阔平原,柔和的光线,温暖的色彩。」
提示词:「一艘宇宙飞船在宇宙的浩瀚中飞驰,星星在其旁划过,高速飞行,科幻感十足。」
提示词:「一只金毛寻回犬在蜿蜒的山间小径上行走,它兴奋地摇着尾巴,探索着荒野的景色和气味。」
如何使用Veo?
相对于OpenAI Sora的放鸽子,谷歌已经迅速将Veo视频模型创建了一个生成创作平台Video-Fx。
使用方法基本傻瓜式,直接在文本框输入提示词,然后点击“生成”(Create Video)即可。目前处于早期测试阶段,还无法提供任何的编辑能力。
谷歌Video-Fx创作平台支持一次性生成4条视频,相比于Runway、Pika等主流AI视频生成平台,还是非常大方了!
值得一提的是,Veo还提供了一个名叫“Storyboard”的创作模式,支持为生成的无声AI视频一键添加背景音乐。
Veo模型架构简介
Veo是如何工作的呢?
根据谷歌的介绍,Veo更像是一个视频生成模型的大合集。
谷歌融合了GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere、Transformer和Gemini等等,将许多的技术概念与大模型架构的优点融合集于一体。
例如,Phenaki是谷歌很早之前便推出的文生视频模型,采用了一个双向掩码转换器架构。在视频帧之间的切换、一致性、关联性方面非常优秀。
WALT则是深度学习领域的一种视频微调技术,可关注模型内部的激活层,通过权重调整来改进模型性能。
Gemini是谷歌目前最强的大语言模型,在语义理解能力上可与GPT-4相媲美。
所以,从这个「集中力量办大事」的姿态,以及产品商业化推进的步伐,就不难看出谷歌是对Veo下了血本,誓要与OpenAI的Sora一较高下。
体验Veo
目前,谷歌已经将Veo视频模型整合在文生视频平台Video-Fx,任何人都可以免费申请,也向开发者开放API。
申请地址:
https://aitestkitchen.withgoogle.com/zh/tools/video-fx
上一篇:苹果计划自建AI服务器数据中心:苹果COO访问台积电总部,探讨AI芯片开发与代工
Sora最强竞品!谷歌最新AI视频生成模型Veo详解:时长超1分钟、1080P丝滑丨附内测体验链接
5月15日,谷歌举办一年一度的I O开发者大会,对OpenAI展开了军火库的狂轰滥炸。其中最受网友关注的无疑是AI视频生成模型,代号「Veo」。
苹果计划自建AI服务器数据中心:苹果COO访问台积电总部,探讨AI芯片开发与代工
苹果COO Jeff Williams低调拜访台积电,台积电总裁魏哲家亲自接待。双方主要讨论了苹果自研AI芯片的开发,以及台积电使用先进制程技术生产芯片等事宜。
OpenAI CEO奥特曼正式回应“封嘴”离职霸王条款,承诺推出新的AI模型会反复检验其安全性
OpenAI CEO奥特曼承诺的小作文来了,一发就是两篇。一篇短的,回应了离职霸王条款;另一篇超长,讲了OpenAI的整体安全战略。
基于GPT-4o的ChatGPT智能语音功能由400多位配音演员整合训练,并非采集知名女星斯嘉丽·约翰逊
刚刚!OpenAI发文澄清:ChatGPT声音是由400多个配音演员数据训练的,并非知名女歌手|钛媒体AGI
Ilya Sutskever离开OpenAI原因揭秘:奥特曼强硬砍掉他的AI对齐项目研发算力,优先用于开发新产品搞钱
前任OpenAI「超级对齐团队」负责人Jan Leike在网上自曝离职的真正原因:奥特曼坚决砍掉了他与Ilya用于AI安全与“对齐”的算力。
彭博社爆料:苹果将改进Siri的语音交互能力,提供逼真对话服务,依托OpenAI等第三方AI大模型
苹果将在6月10日举行的WWDC全球开发者大会,宣布多项全新的生成式AI功能,除iPhone端侧的AI功能外,也将提供云端在线AI服务。
Lingo灵构笔记
火山写作
思默回答
宙语Cosmos
小鱼AI写作
一码千言
晓语台
Lingo灵构笔记
火山写作
思默回答
宙语Cosmos
小鱼AI写作
一码千言
晓语台
万彩AI公文频道
墨鱼Aigc公文写作