微软推出Mora,对标Sora,多项测评超越开源SOTA,效果接近Sora
“Mora: Enabling Generalist Video Generation via A Multi-Agent Framework”
Sora的爆火带动了AI视频生成的关注,然而闭源的Sora为后续研究带来了挑战。为了解决这个问题,近日理海大学和微软联合推出Mora多Agents视频生成框架,通过整合多个SOTA的AI模型,复现Sora的通用视频生成能力。
论文地址:https://arxiv.org/pdf/2403.13248.pdf
Github地址:https://github.com/lichao-sun/Mora
摘要
简介
- 1)增强用户提供的提示
- 2)从输入文本提示生成图像
- 3)根据文本提供的增强条件编辑或细化图像
- 4)从生成的图像生成视频
- 5)连接两个视频
- 提出了一种开创性的元编程框架Mora,旨在加强多Agents协作。Mora定位为推进通用性视频生成任务边界。
- 研究表明,通过利用多个Agents的自动合作,包括文本到图像、图像到图像、图像到视频和视频到视频Agents,视频生成的质量可以显著提高。
- Mora在6个视频相关任务中表现出了卓越的性能,超过了现有的开源模型。
Mora:用于视频生成的多Agents框架
- 提示选择和生成:GPT-4
- 文本到图像生成:SDXL
- 图像到图像生成使用InstructPix2Pix
- 图像到视频生成:Stable Video Diffusion
- 视频连接:SEINE
实验
- 视频文本融合度 VideoTI,,用于增强模型对文本指令的忠实度的定量评估。通过计算视频和文本向量的余弦相似度对得到的嵌入进行语义相似度分析,为模型对给定指令和图像的遵守程度提供定量度量。
- 时间一致性 TCON, ,旨在衡量原始视频和扩展视频之间的一致性。对于每个输入输出视频对,我们使用ViCLIP视频编码器来提取它们的特征向量。然后计算余弦相似度以获得得分。
- 时间一致性 Tmean,通过基于TCON量化中间生成视频和输入视频之间的相关性。
- 视频长度,以评估模型生成视频内容的效率,特别是最长持续时间(以秒为单位)。
讨论
开源贡献。Mora的开源性质被为人工智能社区的重大贡献,通过提供未来研究可以建立的坚实基础,鼓励进一步发展和完善。
总结