谷歌发布新一代AI视频自动配音工具,AI视频开启「有声时代」!?
6月17日,谷歌人工智能团队DeepMind发布了一个名为V2A(Video-to-Audio)的AI架构系统,顾名思义即“视频转音频”,能根据画面内容或者手动输入的提示词直接为视频配音。
该模型最大的功能在于,可为任何视频自动创建合适的音轨BGM,在实践中取得了十分有效的进展,可以大大降低视频配音的制作成本。
当前Sora、Pika、可灵以及Runway等视频模型已经能输出逼真的短片,但它们均输出的是默片。
谷歌V2A系统的特点,便是V2A能依靠自身的多模态视觉能力理解视频当中的信息。V2A能看懂画面,知道画面里正在发生什么,应该出现什么声音。
?举个例子,比如输入一则主题为「在黑暗中行走」的无声视频,添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文本提示后,AI模型就能根据提示词生成恐怖片风格的背景音效,十分逼真。
脚步声基本吻合人物走动的节奏,随着画面的切换,脚步声也随之消失,毛骨悚然的紧张感拉满。
为了能够贴近Sora热点,谷歌V2A的开发团队使用了不少Sora生成的视频片段作为输入范例。
比如上边这段Sora生成的水母漂荡影像,营造出了负压十足的深海水压感。
下方这则短片也是Sora的样片,经由V2A生成的音乐配乐后的视频颇有西部大片的感觉。
当然也不是每一次生成的配音都是完美的,比如架子鼓的敲击,这种复杂的音频场景就会发生音画不同步的情况。
除了纯粹的配音外,谷歌V2A给了创作者很大的自由度。
影片创作者可以根据可以通过明确的“正面”提示词,引导模型输出所需的声音,或者输入“负面”提示词,以规避不想出现的音效。让用户可以创作不同的音画匹配。
让我们看下面这个Sora样片的配音效果,提供了两种截然不同的画面情绪氛围:
【视频①】营造星际穿越的孤独感
【视频②】营造星际穿越的史诗感
只需简单调整提示词,谷歌V2A就能迅速给创作者提供风格迥异的音频。
当然,V2A还允许用户通过输入“正面提示词”来引导模型输出所需的声音,或输入“负面提示词”来引导其避免出现不需要的声音,这给了创作者更大的控制力。
与其他普通的AI音频生成工具不同,V2A输出的视频是配音完毕的完整片段,无需人工对齐音频与视频,可实现音画自动对齐。
V2A配音案例——?狼吼
V2A配音案例——?电吉他
谷歌DeepMind也承认,该AI系统目前仍然存在较大的局限性。如果输入的视频质量不高,或者无法吻合预训练的视频类型,那么输出的音频质量也会出现明显的下降。
因此,谷歌目前正在改善安全性并补齐当前V2A在人物对口型方面的短板,才会正式向公众发布这一AI配音工具。
这套AI配音系统是如何工作的呢?
谷歌DeepMind的研究人员称,V2A系统首先会将视频进行压缩,然后借助扩散模型从中随机抽取噪声以提炼和学习音画对应的音频信息。
该过程经由视觉输入和自然语言提示作为引导,以匹配提示词生成对应的音频。最后,音频输出并解码,转为一般音频文件并与视频数据组合对齐。
为了能引导生成更高质量的音频,谷歌DeepMind的研究人员在训练过程中添加了许多人工标注的信息。V2A系统渐渐学会了将特定的音频事件与各种视觉场景相关联,并且将提示词中提供的信息与之匹配。
需要注意到是,谷歌目前并不打算向公众开放V2A系统,还需要许多准备工作。
考虑到Fake News(假新闻)粗制滥造的可能,谷歌DeepMind强调,他们会考虑在V2A系统AI生成的内容添加元数据水印,防止外界滥用该技术。
从文生图到文生视频,到音画同步,谷歌V2A系统的发布将给影视内容创作的生态带来巨大的改变,尤其是在后期剪辑与动画制作方面。
相信今年将是AI视频爆发的元年。
项目主页:https://deepmind.google/discover/blog/generating-audio-for-video/
上一篇:Anthropic发布新一代Claude 3.5 Sonnet丨微信输入法V1.2版提供AI问答丨北京首例「AI换脸软件」侵权案宣判
谷歌人工智能团队DeepMind发布了一个名为V2A(Video-to-Audio)的AI架构系统,新一代AI视频自动配音工具,AI视频开启「有声时代」!?
【AI奇点网2024年6月21日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
Anthropic曾许下要超越OpenAI的发家愿望,没想到竟然这么快就实现了。他们刚刚发布的Claude 3 5 Sonnet模型不仅成本更低、速度更快,而且在基准测试上的表现「弯道超车」GPT-4o。
【AI奇点网2024年6月24日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
近日最新的消息指出,苹果已经与百度、阿里巴巴和百川智能等人工智能大模型的开发商进行了沟通,但目前还未达成最终协议。
穆拉蒂表示,在接下来的几年里,我们期待ChatGPT在特定任务上达到「博士」的智力水平。事情正在飞速变化、改善。
PaperFree
PaperPro
CheckVip
PaperWord
PaperRed
PassMore
PaperAI智能降重
WritePass官网
PaperBye
网站地图
音效师狂喜!谷歌DeepMind发布首个AI视频全自动配音工具V2A:一个人轻松干完后期的活
谷歌发布新一代AI视频自动配音工具,AI视频开启「有声时代」!?
6月17日,谷歌人工智能团队DeepMind发布了一个名为V2A(Video-to-Audio)的AI架构系统,顾名思义即“视频转音频”,能根据画面内容或者手动输入的提示词直接为视频配音。
该模型最大的功能在于,可为任何视频自动创建合适的音轨BGM,在实践中取得了十分有效的进展,可以大大降低视频配音的制作成本。
当前Sora、Pika、可灵以及Runway等视频模型已经能输出逼真的短片,但它们均输出的是默片。
谷歌V2A系统的特点,便是V2A能依靠自身的多模态视觉能力理解视频当中的信息。V2A能看懂画面,知道画面里正在发生什么,应该出现什么声音。
?举个例子,比如输入一则主题为「在黑暗中行走」的无声视频,添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文本提示后,AI模型就能根据提示词生成恐怖片风格的背景音效,十分逼真。
脚步声基本吻合人物走动的节奏,随着画面的切换,脚步声也随之消失,毛骨悚然的紧张感拉满。
为了能够贴近Sora热点,谷歌V2A的开发团队使用了不少Sora生成的视频片段作为输入范例。
比如上边这段Sora生成的水母漂荡影像,营造出了负压十足的深海水压感。
下方这则短片也是Sora的样片,经由V2A生成的音乐配乐后的视频颇有西部大片的感觉。
当然也不是每一次生成的配音都是完美的,比如架子鼓的敲击,这种复杂的音频场景就会发生音画不同步的情况。
除了纯粹的配音外,谷歌V2A给了创作者很大的自由度。
影片创作者可以根据可以通过明确的“正面”提示词,引导模型输出所需的声音,或者输入“负面”提示词,以规避不想出现的音效。让用户可以创作不同的音画匹配。
让我们看下面这个Sora样片的配音效果,提供了两种截然不同的画面情绪氛围:
【视频①】营造星际穿越的孤独感
【视频②】营造星际穿越的史诗感
只需简单调整提示词,谷歌V2A就能迅速给创作者提供风格迥异的音频。
当然,V2A还允许用户通过输入“正面提示词”来引导模型输出所需的声音,或输入“负面提示词”来引导其避免出现不需要的声音,这给了创作者更大的控制力。
与其他普通的AI音频生成工具不同,V2A输出的视频是配音完毕的完整片段,无需人工对齐音频与视频,可实现音画自动对齐。
V2A配音案例——?狼吼
V2A配音案例——?电吉他
谷歌DeepMind也承认,该AI系统目前仍然存在较大的局限性。如果输入的视频质量不高,或者无法吻合预训练的视频类型,那么输出的音频质量也会出现明显的下降。
因此,谷歌目前正在改善安全性并补齐当前V2A在人物对口型方面的短板,才会正式向公众发布这一AI配音工具。
这套AI配音系统是如何工作的呢?
谷歌DeepMind的研究人员称,V2A系统首先会将视频进行压缩,然后借助扩散模型从中随机抽取噪声以提炼和学习音画对应的音频信息。
该过程经由视觉输入和自然语言提示作为引导,以匹配提示词生成对应的音频。最后,音频输出并解码,转为一般音频文件并与视频数据组合对齐。
为了能引导生成更高质量的音频,谷歌DeepMind的研究人员在训练过程中添加了许多人工标注的信息。V2A系统渐渐学会了将特定的音频事件与各种视觉场景相关联,并且将提示词中提供的信息与之匹配。
需要注意到是,谷歌目前并不打算向公众开放V2A系统,还需要许多准备工作。
考虑到Fake News(假新闻)粗制滥造的可能,谷歌DeepMind强调,他们会考虑在V2A系统AI生成的内容添加元数据水印,防止外界滥用该技术。
从文生图到文生视频,到音画同步,谷歌V2A系统的发布将给影视内容创作的生态带来巨大的改变,尤其是在后期剪辑与动画制作方面。
相信今年将是AI视频爆发的元年。
项目主页:https://deepmind.google/discover/blog/generating-audio-for-video/
上一篇:Anthropic发布新一代Claude 3.5 Sonnet丨微信输入法V1.2版提供AI问答丨北京首例「AI换脸软件」侵权案宣判
音效师狂喜!谷歌DeepMind发布首个AI视频全自动配音工具V2A:一个人轻松干完后期的活
谷歌人工智能团队DeepMind发布了一个名为V2A(Video-to-Audio)的AI架构系统,新一代AI视频自动配音工具,AI视频开启「有声时代」!?
Anthropic发布新一代Claude 3.5 Sonnet丨微信输入法V1.2版提供AI问答丨北京首例「AI换脸软件」侵权案宣判
【AI奇点网2024年6月21日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
Claude 3.5突然上线,竟比GPT-4o还强!全新Artifacts改写模型交互
Anthropic曾许下要超越OpenAI的发家愿望,没想到竟然这么快就实现了。他们刚刚发布的Claude 3 5 Sonnet模型不仅成本更低、速度更快,而且在基准测试上的表现「弯道超车」GPT-4o。
快手「可灵」升级:新增图生视频与视频续写丨华为发布盘古大模型5.0丨腾讯元宝「AI搜索」能力升级
【AI奇点网2024年6月24日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
苹果接触百度、阿里等多家中国AI公司洽谈大模型合作,国行iPhone AI能力有哪些?
近日最新的消息指出,苹果已经与百度、阿里巴巴和百川智能等人工智能大模型的开发商进行了沟通,但目前还未达成最终协议。
OpenAI CTO穆拉蒂回应新一代模型:「GPT-5」今年没戏,一年半之后见
穆拉蒂表示,在接下来的几年里,我们期待ChatGPT在特定任务上达到「博士」的智力水平。事情正在飞速变化、改善。
PaperFree
PaperPro
CheckVip
PaperWord
PaperRed
PassMore
PaperAI智能降重
PaperFree
PaperPro
CheckVip
PaperWord
PaperRed
PassMore
PaperAI智能降重
WritePass官网
PaperBye