让照片也能对口型说话（AI工具篇：通义千问）

[ 首页 ] > 栏目[ 通义千问 ] > 文章[ 让照片也能对口型说话（AI工具篇：通义千问） ] 发布时间: 2024-05-11 编号: 41291

有段时间没写文章了，碰到键盘的一瞬间我自然而然地将手指放在了QWER上，我就知道热爱学习的那个我不见了。

像是我刚期末考玩准备通宵打游戏之前得玩两把人机复检一下，在我恢复正常的更新之前我打算写篇比较简单文章来找回那个热爱学习的少年。

而今天的就是要给大伙分享一个比较好玩的AI工具，由于阿里巴巴旗下的通义实验室开发的AI视频生成模型-Emote Portrait Alive，简称EMO

其实这个EMO早就在二月份发布了，并且无论是国内还是国外都有着大量的媒体报道：

《让照片也能对口型说话（AI工具篇：通义千问）》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

之所以能引起这么大的轰动是因为在此之前的人像说话技术(Talking head)只能实现简单地“唇形匹配”，只能嘴巴动脸却没有动，就有点惊悚的感觉。

像是之前讲述过的一些AI视频制作工具都是只能重复已经设置好的特定动作，而与之相比EMO只需要一张图片就能生成长达两分钟的视频出来。

研究团队通过一个预训练的音频模型（WAV2VEC）提取了训练素材中的语音语气等特征，然后将其与整体的面部像素建立起关联。再然后用类似Stable Diffusion的方式引导去噪方式生成视频。

《让照片也能对口型说话（AI工具篇：通义千问）》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

之后用一个独特的神经网络提取上传的图片特征来维持面部的一致性，简单来说就是让AI来学习人是怎么说话以及说话的时候人脸是怎么动的。

《让照片也能对口型说话（AI工具篇：通义千问）》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

素材来源：Nenly同学

这种训练方式让AI学会了人说话时的语气语调以及其面部是怎么动的，某种方面来讲也是让AI读懂了人类的“情感”。

这个东西也很简单，只需要搜索下载通义千问APP后在对话框里面输入“EMO”，然后APP就会自动跳转到这个页面：

《让照片也能对口型说话（AI工具篇：通义千问）》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

不得不说这个演示的人像AI味也太重了，在这里上传一张颈部以上的大头照后就可以从系统提供的人生预设里选定一个需要生成的内容。

《让照片也能对口型说话（AI工具篇：通义千问）》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

选择自己感兴趣的梗或者表情包后选择演同款，之后点击上传自己想要动起来的图片：

《让照片也能对口型说话（AI工具篇：通义千问）》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

然后直接点击完成即可（根据玩法不同需要等待的时间也不同）：

《让照片也能对口型说话（AI工具篇：通义千问）》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

我这个比较久所以我就可以暂时离开这个页面把这篇公众号文章给写完，在经历了十分钟的等待之后就能得到这样的画面啦：

《让照片也能对口型说话（AI工具篇：通义千问）》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

当然由于上传限制这边没法上传整段视频，大伙可以自己去尝试一下。

这项技术所带来的意义还是蛮重大的，在EMO的加持下数字人更加有亲和力和感染力，在未来的短视频、直播带货、虚拟人物都会涉足。

当然也要有所警惕，在未来所看到的究竟是不是真的。不知道是好消息还是坏消息，至少目前这个项目还没开源。

大伙下篇笔记见，拜了个拜！

《让照片也能对口型说话（AI工具篇：通义千问）》- 投稿作者:简历白纸一张 - 发布于:GetAI社区