首页 AI教程资讯开局一张图，内容AI编：阿里发布人物肖像神态表情AI短视频生成模型EMO：AI小姐姐唱跳RAP，全由你做主

开局一张图，内容AI编：阿里发布人物肖像神态表情AI短视频生成模型EMO：AI小姐姐唱跳RAP，全由你做主

2025-02-11 来源｜AI图库吧

2月28日，阿里巴巴人工智能团队发布了基于音频驱动的肖像脸部表情神态动作视频生成框架EMO(Emote Portrait Alive)。

顾名思义，也就是「生动的肖像神态」。

从架构命名就很直觉，这款模型架构是用于生成人物表情的。

简单感受一下，给你一点小小的AI影像震撼：

你可以让赫本演唱一曲英国歌手艾德·希兰的《Perfect》，随着歌曲旋律，她会做出挑眉、皱眉等细微的表情变化。

一位AI绘画模型绘制的女孩，她生动地表演了一首陶喆的《Melody》，音频来自女歌手宁艺卓翻唱的版本。在唱到一些高音部分时，“她”甚至还会做出皱鼻子等鼻腔共鸣发力的表情。

除了国语歌，粤语歌也能轻松对上口型。

下面这条演示视频是张国荣翻唱陈奕迅的《无条件》。

让二次元小姐姐动起来，可能是最快得到应用的领域。

比如，你可以让动画《进击的巨人》中的角色Ymir Fritz亲自演唱动画片尾曲《衝撃》。与真人和3D人物相比，纸片人的表情管理更沉稳一些。

在翻唱Kpop歌曲《SOLO》时，这位AI生成的数字女孩十分投入，面部的轮廓线条也会随着口型变化而变化。

唱到动情处，AI生成的蒙娜丽莎还会闭上双眼，恰似沉浸在音乐旋律中。

如果想听RAP，小李子可以用18岁的脸庞为你演绎美国说唱歌手埃米纳姆的《GODZILLA》。

虽然中间偶尔出现“翻白眼”等瑕疵，但总体拟合程度还是很高的。

在生成说话视频上，EMO同样能为角色注入活灵活现的神韵。

例如这条蒙娜丽莎讲话的视频，开头一清嗓子，那个神韵就立马拿捏住了。

，时长00:26

虽然蒙娜丽莎初始设定就没有眉毛，但EMO还是让她的“眉骨部位”随着语调做出不同神态反应，连双下巴都灵动了起来。

下面这条Ymir Fritz说话视频中的音频来自游戏《尼尔：机械纪元》。

，时长00:26

借助AI生成二次元的人物形象，然后导入EMO让其开口说话，这样的工作流很可能会在不远的将来，成为游戏开发工作室的标配。

EMO还扩大了不同故事背景下人物“二创”的可塑性。

例如，你可以看到高启强模仿罗翔老师讲刑法。

坤哥说起了郭德纲老师的相声……唉哟，你干嘛~(手动调大音量)?

也可以看到小丑抢死对头台词，演绎《蝙蝠侠：黑暗骑士》中的经典台词。

最近的两个月，阿里在人像视频生成方面做出了诸多建树，让未曾学过舞蹈的普通人也可以轻松打造自己的舞蹈视频。

这次，阿里的创新性技术架构，让用户只需上传一张参考的图像和一段声音音频用于解析，该框架能够自主生成具有高度真实感、丰富面部表情和头部姿势的带配音肖像视频。

具体来说，阿里的人像视频带配音生成框架EMO有以下几个特性：

在较少的资源条件下利用音频视频扩散模型生成富有表现张力的肖像视频

表情生动，动作精准：EMO重塑AI视频生成

技术奇迹：一张图片+声音，EMO让肖像视频活灵活现

告别传统：EMO的音频视频扩散模型，开启人像视频新纪元

提供一张图片生成肖像说话视频，这个事情并不新鲜，但是能做到像阿里这么自然流畅在业内尚属首次。

不仅如此，既能生成生动的表情神态，还能出现各种人类说话摇头晃脑的头部姿态，人物讲话的唇形与配音完美吻合匹配，同时还能根据需求的时长来控制生成视频的长度。

阿里再次实现了国内企业在大模型技术应用方面的“遥遥领先”。

EMO框架的实现逻辑

通过这张示意图，我们大致可以将EMO框架的AI生成，分为两个主要阶段：

在第一阶段，是为了给原始图像进行特征标记，使用ReferenceNet从用户提供的参考图像和运动关键帧中提取人物特征。

接着进入第二阶段，在扩散过程阶段我们用到了Diffusion Process模型，接入一个预训练的音频编码器对用户提供的音频嵌入进行处理。

面部区域的遮罩与多帧噪声相结合，以指导人物面部图像的逐帧生成，并且保持高度一致性。然后，主干网络被用来执行去噪操作。

在主干网络内部，阿里引入了两种提升一致性的注意力机制：Reference-Attention和Audio-Attention。

这两种机制分别对于维持角色的独特性和调节角色的动作至关重要。此外，还使用了时间模块(Temporal Modules)来处理时间维度的视频帧排序，以及调整面部神态的运动速度。

还有一些其他的精彩视频，比如这个令EVA印象最深刻的——让OpenAI Sora模型生成的网红日本街头漫步女子开口唱歌——Sora本ra「活了」。

EMO令全球创**好者感到振奋

阿里EMO上线仅仅一天，目前这一项目已经火爆全网。

日本的AI技术博主KAJI表示：

阿里巴巴推出了一款有趣的人工智能架构，当上传静态图片和声音源时，它就能唱歌和说话，表现感染力很强。阿里正在进行大量研究，重点关注AI在娱乐方面的应用，例如其舞蹈视频生成人工智能。

上一篇：vivo发布第三批蓝心大模型公测机型名单，共计25款包括vivo与iQOO系列：vivo X80与iQOO 9系列在列

开局一张图，内容AI编：阿里发布人物肖像神态表情AI短视频生成模型EMO：AI小姐姐唱跳RAP，全由你做主

2月28日，阿里巴巴人工智能团队发布了基于音频驱动的肖像脸部表情神态动作视频生成框架EMO（Emote Portrait Alive）。

vivo发布第三批蓝心大模型公测机型名单，共计25款包括vivo与iQOO系列：vivo X80与iQOO 9系列在列

AI奇点网2月29日报道丨vivo正式对外发布，第三批蓝心大模型公测机型名单如下，包括vivo与iQOO系列手机，共计25款机型。

库克披露苹果年内将推出一系列AI新功能丨Meta Llama 3将于年中推出丨李彦宏：文心大模型日调用量超5000万

【AI奇点网2024年3月1日早报】本站每日播报AI业界最新资讯，触摸时代脉搏，掌握未来科技动向。事不宜迟，点击查看今日AI资讯早餐。

马斯克怒告OpenAI是想借题发挥，揭开Ilya Sutskever看到的东西？125万亿参数的「Q*」大模型细节曝光

现在，马斯克起诉OpenAI案的最大未解之谜，就集中在了「Ilya究竟看到了什么」上。他看到的东西让OpenAI内部大震荡，所有新模型推出计划被削弱和延期。

Claude 3发布，性能超越GPT-4丨魅族发布「AI开放终端」魅族21 Pro丨英伟达成为全球市值第三的上市公司

【AI奇点网2024年3月5日早报】本站每日播报AI业界最新资讯，触摸时代脉搏，掌握未来科技动向。事不宜迟，点击查看今日AI资讯早餐。

全球最强大模型一夜易主，GPT-4被全面超越，Claude 3正式发布！

Anthropic刚刚官宣：Claude 3来了！作为OpenAI最强竞争选手，此次它发布的新模型家族，以最强版Claude 3 Opus为代表，“已经实现了接近人类的理解能力”