让照片也能对口型说话(AI工具篇:通义千问)
有段时间没写文章了,碰到键盘的一瞬间我自然而然地将手指放在了QWER上,我就知道热爱学习的那个我不见了。
像是我刚期末考玩准备通宵打游戏之前得玩两把人机复检一下,在我恢复正常的更新之前我打算写篇比较简单文章来找回那个热爱学习的少年。
而今天的就是要给大伙分享一个比较好玩的AI工具,由于阿里巴巴旗下的通义实验室开发的AI视频生成模型-Emote Portrait Alive,简称EMO
其实这个EMO早就在二月份发布了,并且无论是国内还是国外都有着大量的媒体报道:
像是之前讲述过的一些AI视频制作工具都是只能重复已经设置好的特定动作,而与之相比EMO只需要一张图片就能生成长达两分钟的视频出来。
研究团队通过一个预训练的音频模型(WAV2VEC)提取了训练素材中的语音语气等特征,然后将其与整体的面部像素建立起关联。再然后用类似Stable Diffusion的方式引导去噪方式生成视频。
素材来源:Nenly同学
这种训练方式让AI学会了人说话时的语气语调以及其面部是怎么动的,某种方面来讲也是让AI读懂了人类的“情感”。这个东西也很简单,只需要搜索下载通义千问APP后在对话框里面输入“EMO”,然后APP就会自动跳转到这个页面:
这项技术所带来的意义还是蛮重大的,在EMO的加持下数字人更加有亲和力和感染力,在未来的短视频、直播带货、虚拟人物都会涉足。
当然也要有所警惕,在未来所看到的究竟是不是真的。不知道是好消息还是坏消息,至少目前这个项目还没开源。
大伙下篇笔记见,拜了个拜!