谷歌发布首个多模态视频生成模型VLOGGER AI:让静态人物肖像图像开口“说话”

2025-02-06 来源|AI图库吧

近日,谷歌在其 GitHub 页面发布博文介绍一款名为 VLOGGER AI 的新模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。

VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。

研究人员表示:“和此前的多模态模型相比,VLOGGER AI 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。

除了将静态人物进行动态转化之外,还可以针对不同语言系统进行口型的转换,比如将一则英语播报的主播转换为西班牙语的口型。这将有助于视频主播将内容注入更多的语言场景。

谷歌的研究团队认为,可以将 VLOGGER 应用于将 AI 聊天机器人具象可视化,比如让机器人拥有可视化的人物躯干,AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。 VLOGGER 的应用场景包括可以用于学术报告、教育场域和视频旁白等等 AI 数字人的应用领域。

围观项目主页:

https://enriccorona.github.io/vlogger/

最新
更多

谷歌发布首个多模态视频生成模型VLOGGER AI:让静态人物肖像图像开口“说话”

近日,谷歌一款名为 VLOGGER AI 的新模型上线,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。

库克今年首次访华,国内首谈生成式AI丨微软收购OpenAI竞争对手Inflection AI丨黄仁勋回应中国算力芯片出货问题

【AI奇点网2024年3月21日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。

只用文本,3分钟生成一个网站!首个ChatGPT版网站开发平台dora AI发布

3月21日,开发平台dora宣布,首个生成式AI网站开发平台dora AI,结束候补内测全面开启公测。

AIGC基础应用教程丨探索AI在图像放大中的工具使用

当给到的图像素材尺寸太小或者不清晰的时候,有哪些好的AI图像放大的工具可以使用?本期就给大家推荐一些好用的工具

太暴力了!微软成立Microsoft AI团队,将OpenAI竞争对手、AI创业公司Inflection AI研发团队纳入麾下

3月19日,微软CEO纳德拉宣布,AI创企Inflection AI的联合创始人兼CEO穆斯塔法·苏莱曼(Mustafa Suleyman)已加入微软公司,领导Microsoft AI的新团队

开源大模型圈子大地震!外媒爆:Stable Diffusion核心团队已经从Stability AI离职

据媒体披露,Stable Diffusion核心研究团队已集体辞职!离职消息由Stability AI CEO Emad Mostaque在内部全体会议上亲自宣布。

网站地图