Vidu发布:中国首个长时长、高一致性、高动态性视频大模型

在2024年4月27日的中关村论坛上，生数科技联合清华大学发布了备受瞩目的中国首个长时长、高一致性、高动态性视频大模型——Vidu。这款模型以其强大的功能和出色的效果，一经发布便引起了业界的广泛关注。Vidu不仅展示了中国在人工智能领域的深厚实力和创新能力，更为视频生成技术的发展开辟了新的道路。

Vidu模型介绍

Vidu模型能够根据用户提供的文本描述，一键生成长达16秒、分辨率为1080P的高清视频内容。这一技术的突破，不仅在于视频的时长和清晰度，更在于模型的多项创新特性：

Vidu采用了原创的U-ViT架构，这一架构由生数科技团队在2022年9月提出，早于国际领先的视频生成模型Sora的DiT架构。U-ViT架构是第一个融合了Diffusion和Transformer的架构，展现了中国科研团队在人工智能领域的自主创新能力。

Vidu与Sora在功能和性能上都有着显著的竞争关系。Vidu在视频生成速度和超现实主义画面方面展现出了更大的优势，而Sora则在其他方面有着自己的特色。这种竞争促进了双方不断创新和进步，为用户带来了更多选择和更好的体验。

Vidu的发布，为影视制作、广告创意、虚拟现实等领域带来了更高效、更创新的解决方案。随着技术的不断进步和市场需求的增长，Vidu有望推动视频创作者生产力革命，大幅降低生产成本与创作门槛。

生数科技成立于2023年3月，公司创始团队来自清华大学人工智能研究院，是全球范围内最早从事扩散概率模型研究的团队之一。生数科技已完成数亿元融资，投资方包括启明创投、蚂蚁集团等知名机构。公司还研发了垂类应用产品，如视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft等。

Vidu的发布标志着中国视频生成技术迈出了新的一步，为国内人工智能领域注入了新的活力。未来，随着技术的不断进步和创新，Vidu有望在国内外市场中占据重要地位，推动中国乃至全球视频生成技术的发展。

参考：