字节发表DiffusionGPT,结合思维树和大模型Agent实现文生图
“DiffusionGPT: LLM-Driven Text-to-Image Generation System”
摘要
简介
相关工作
用于视觉语言任务的大型语言模型
自然语言处理领域出现了大型语言模型(LLMs),这些模型通过对话接口展现出了惊人的交互能力。为了进一步提高LLMs的能力,引入了Chain-of-Thought(CoT)框架,该框架指导LLMs逐步生成答案,以获得更好的最终答案。最近的研究探索了将外部工具或模型与LLMs集成的创新方法。作者利用LLMs的潜力,引入了LLMs作为多功能工具的概念,以指导T2I模型生成高质量的图像。
方法
- 基于提示:将整个输入用作生成的提示符。例如,如果输入是“一条狗”,那么用于生成的提示符将是“一条狗”。
- 基于指令:提取指令的核心部分作为生成提示符。例如,如果输入是“生成一张狗的图像”,那么识别提示将是“一张狗的图像”。
- 基于灵感:将欲望的目标主体提取出来,作为生成的提示(例如,输入:“我想去看海滩”;认出来了:“海滩”)。
- 基于假设:它涉及提取假设条件(“如果xxx,我将xxx”)和即将发生的动作的对象作为生成提示。例如,如果输入是“如果你给我一个玩具,我会很高兴地笑”,那么识别的提示将是“一个玩具和一个笑脸”。
实验
定量结果
DiffusionGPT的用户偏好与表1中的定量结果之间的对齐为其鲁棒性和有效性提供了强有力的证据。通过使用美学预测器和人类反馈相关的奖励模型来进一步评估不同的生成结果,表1中的结果表明,我们的整体框架在图像奖励和美学得分方面优于SD1.5基线模型,分别实现了0.35%和0.44%的改进。
消融分析
思维树和人类反馈
通过视觉分析验证了设计组件的有效性。随着逐渐引入TOT和HF模块,生成的图像质量显著提高。这种视觉分析展示了我们的系统通过整合TOT和HF组件在选择优秀模型方面的优势。
提示扩展
通过比较使用原始提示和扩展提示作为输入生成结果的效果,我们发现扩展提示可以显著提高生成图像的美学和细节水平。扩展提示提供了更丰富和详细的图像描述,使生成更具视觉吸引力和艺术性。
用户分析研究结果表明,该方法生成的图像更受用户喜欢。研究使用了PartiPrompts数据集中的100个图像描述,每个描述生成了四张图像,共有20个用户参与了评价。
限制和未来工作
DiffusionGPT目前在生成高质量图像方面已经取得了一定的成果,但仍存在一些限制。
未来的计划包括:
-
引入反馈驱动的优化,将反馈直接纳入LLM的优化过程中,以实现更精细的提示解析和模型选择。
-
扩展模型候选集,丰富模型生成空间,以取得更令人印象深刻的结果。
-
将这些见解应用于更广泛的任务,包括可控生成、风格迁移、属性编辑等。
总结
Diffusion-GPT是一个集成了优秀生成模型和高效解析多样化提示的框架。通过利用大型语言模型,Diffusion-GPT可以理解输入提示的意图,并从思维树结构中选择最合适的模型。该框架具有多样性和卓越的性能,同时还通过优势数据库融入了人类反馈。Diffusion-GPT是一个无需训练且易于集成的即插即用解决方案,为社区发展提供了高效有效的途径。