Processing math: 100%
基于双重优化稳定扩散模型的文本生成图像方法
黄金杰1,2, 刘彬1,2
1.哈尔滨理工大学 自动化学院 哈尔滨 150080
2.哈尔滨理工大学 黑龙江省复杂智能系统与集成重点实验室 哈尔滨 150080
通讯作者:

黄金杰,博士,教授,主要研究发现为深度学习、大数据模型、模式识别、人工智能、智能系统与控制等.E-mail:jjhuang@hrbust.edu.cn.

作者简介:

刘 彬,硕士研究生,主要研究方向为深度学习、图像生成.E-mail:lb1634662007@163.com.
第二十七届中国科协年会学术论文

摘要

稳定扩散模型(Stable Diffusion Model, SD)在面对包含多个对象的文本提示时,不能保证输入文本与其生成的图像完全对齐,而完全重新训练SD花费的资源是巨大的.因此,文中提出基于双重优化稳定扩散模型的文本生成图像方法(Text-to-Image Generation via Dual Optimization Stable Diffusion Model, DualOpt-SD).首先,基于预训练的SD,将布局生成图像模型(Layout-to-Image Generation, L2I)通过生成框架引入文本生成图像模型(Text-to-Image Generation, T2I)中.然后,设计双重优化策略(Dual Optimization, DualOpt),优化推理过程中输出的噪声.DualOpt由两部分组成:一部分结合注意力分数,动态调整L2I和T2I学习的先验知识;另一部分针对不同去噪阶段的需求,对L2I和T2I进行差异化关注度处理.实验表明,当文本提示包含多个对象时,DualOpt-SD在保留SD强理解力的同时,可提高构图准确性,并且生成图像的综合能力较优,能够生成高真实性和对象位置合理的图像.

关键词: 稳定扩散模型; 布局生成图像; 文本生成图像; 多目标文本提示
中图分类号:TP183
Text-to-Image Generation via Dual Optimization Stable Diffusion Model
HUANG Jinjie1,2, LIU Bin1,2
1.School of Automation, Harbin University of Science and Technology, Harbin 150080
2.Heilongjiang Provincial Key Laboratory of Complex Intelligent System and Integration, Harbin University of Science and Technology, Harbin 150080
Corresponding author:
HUANG Jinjie, Ph.D., professor. His research interests include deep learning, big data models, pattern recognition, artificial intelligence, and intelligent systems and control.

About Author:
LIU Bin, Master student. His research interests include deep learning and image gene-ration.
Academic Papers of the 27th Annual Meeting of the China Association for Science and Technology

Abstract

The stable diffusion(SD) model is unable to ensure full alignment between the generated images and the input textual prompts, while handling text prompts containing multiple objects. Moreover, the complete retraining of the SD model requires enormous computational resources. To solve this problem, a training-free method, text-to-image generation via dual optimization stable diffusion model(DualOpt-SD) is proposed. First, a layout-to-image generation(L2I) model is integrated into a text-to-image generation(T2I) model through a generation framework based on a pre-trained SD model. Next, the dual optimization(DualOpt) strategy is designed to optimize the output noise by the model during the inference process. DualOpt consists of two parts: one part adjusts the prior knowledge learned by L2I and T2I dynamically based on attention scores, and the other part focuses on the requirements of different denoising stages and applies varying attention to L2I and T2I. Experiments demonstrate that when the text prompt contains multiple objects, DualOpt-SD improves compositional accuracy while preserving strong interpretative capabilities of SD model. Furthermore, DualOpt-SD achieves higher overall image generation performance and produces images with high realism and reasonable object placement.

Key words: Key Words Stable Diffusion Model; Layout-to-Image Generation; Text-to-Image Generation; Multi-object Text Prompt

近年来, 随着大规模图文数据集应用于文本生成图像模型(Text-to-Image Generation, T2I)的训练, 文本生成图像领域取得重大进展, 特别是近年提出的稳定扩散模型(Stable Diffusion Model, SD)[1], 既能生成高真实度的图像, 也表现出对文本提示强大的语义理解能力.之后, 各类T2I层出不穷.然而, 在面对具有多目标及复杂位置信息的文本描述时, 这类模型性能往往不佳.例如:最近开发的T2I虽然可根据简单的文本描述生成高质量的图像[2, 3], 但当文本描述包含多个对象时, 生成图像可能与文本指定的内容出现偏差.

为了提高文本提示和生成图像之间的语义一致性, 一些方法将布局条件引入T2I的训练中或在此前提下微调模型, 即在文本引导的基础上额外增加空间控制[4, 5], 有效优化生成图像的内容分布.然而, 对模型重新进行训练或微调需要的计算资源并不是所有用户都能负担得起的.因此, 有研究者提出免训练的方法[6, 7], 在保证预训练模型权重不变的基础上, 调节模型推理过程中神经网络产生的部分中间变量, 使模型能对生成图像进行更精细地控制.目前, 免训练的方法主要通过两种方式实现:1)根据条件信息对注意力分数进行即时调节[6]; 2)分析模型的注意力分布, 直接对模型的输入进行预处理, 最终达到提升性能的目的[7, 8].然而, 当前免训练的T2I在图像细节的表现力和多样性方面仍显不足.

对于T2I, 输入文本表达的空间关系往往模糊且多样, 而基于条件信息引导注意力的方式受限于引入的条件信息[6], 会导致生成图像的布局过多依赖于加入的布局图信息, 限制模型生成的灵活性.选定输入的布局图后, 模型生成的图像对象组合较单一.对布局图数据的过度依赖还可能导致模型对超出布局图数据以外的文本描述的理解不稳定, 进而引起生成图质量下降.另外, Transformer结构本身存在注意力漂移问题, 即在生成过程中高层注意力未能正确关注低层信息, 而直接对注意力分数进行调整可能会放大这种影响.

直接对模型生成过程中产生的预测噪声进行调整的方式[8]在一定程度上避免注意力漂移的问题, 但利用文本数据训练得到的T2I通常空间感知能力较弱, 仅依靠注意力分数指导生成过程, 难以实现对生成图像的精准控制.通常, 此类模型在去噪过程中对输入文本的指定对象位置表现出较高的关注度, 但在这些重点关注区域的边缘, 模型的注意力分数会出现一定程度的扩散.另外, DALL-E 2[9]及Ima- gen[10]曾指出, 在文本生成图像的过程中, 不同去噪阶段模型关注重点并不相同.在去噪前期模型更关注生成图像的全局结构和大致轮廓, 而在去噪中后期模型更关注细节和高频信息的生成.因此, 基于噪声控制与去噪过程之间的内在联系, 达成高精度的调整仍是一项艰巨的任务.

针对上述问题, 本文提出基于双重优化稳定扩散模型的文本生成图像方法(Text-to-Image Genera-tion via Dual Optimization Stable Diffusion Model, DualOpt-SD), 在不改变预训练模型参数的前提下, 通过设计的双重优化策略(Dual Optimization, Dual- Opt)实现对推理过程的优化, 从而对生成图像进行精准控制.另外, 为了提高T2I对空间信息的感知能力, DualOpt-SD将布局生成图像模型(Layout-to-Image Generation, L2I)与T2I结合, 充分发挥两类模型在去噪过程中的互补优势, 在潜在空间中协同指导图像重建, 提高生成结果的真实性和空间位置合理性.其次, 利用大型语言模型(Large Language Mo- dels, LLMs)[11], 根据文本提示推理得出L2I所需的布局图信息, 避免因人工输入而导致的条件信息过度依赖.实验表明, 当文本提示包含多个目标时, DualOpt-SD生成的图像质量较优.此外, DualOpt-SD是即插即用的, 可无缝集成到现有的扩散模型中, 实现免训练的可控图像生成.

1 相关工作

T2I致力于根据用户输入的文本合成语义信息一致并且视觉效果逼真的图像.早期的生成模型主要是生成对抗网络[12, 13]和自回归生成模型[14, 15].

生成对抗网络对生成器和判别器进行博弈式的训练[16], 使生成器逐步生成更真实的样本[17, 18], 但这种对抗训练会因生成器和判别器学习的不同步出现模式崩溃或无效训练等情况[19, 20], 训练难度较大.van der Oord等[21]提出PixelCNN, 将图像生成问题转化为序列建模问题, 通过逐步生成和概率建模, 尝试解决生成对抗网络训练困难的问题.此后, 自回归生成模型快速发展, 但这种按序列生成的方式生成过程非常耗时, 尤其是在高维数据上, 而且当前的生成依赖于已生成的部分, 长程依赖处理困难.另外, 对序列顺序和依赖关系的精细建模导致计算开销较大.

扩散模型在训练阶段会先在原始图像中逐步添加噪声以破坏其数据结构, 再逆向学习, 从噪声中恢复原始数据.该方法不仅简单高效, 还可灵活引入条件信息, 使模型的生成过程更可控.自从去噪扩散模型提出以来, 文本生成图像领域取得令人瞩目的成绩.Zhou等[22]利用扩散模型的自注意力特征, 提出基于注意力蒸馏损失的优化方法, 通过分类器引导机制将注意力蒸馏损失融入去噪过程, 实现多样视觉特征迁移, 为文本生成图像提供更加可控和高效的风格迁移解决方案.受RLHF(Reinforcement Lear-ning with Human Feedback)的启发, Liang等[23]构建RichHF-18k(Rich Human Feedback on 18k Generated Images), 并在此基础上训练奖励模型, 指导生成过程, 使生成模型能自动预测生成图像的问题区域并进行改善, 该方法为改善生成模型性能提供新的思路.

另外, 生成高质量图像的扩散模型通常伴随高昂的计算成本, 因此在高分辨率图像合成任务中仍面临计算开销和推理延迟的挑战.为此, Li等[24]提出DistriFusion, 将输入拆分为多个块, 分配给不同的GPU(Graphics Processing Unit)进行并行计算, 并且扩散过程为马尔科夫过程, 同一GPU计算时可复用前一时间步的特征图, 实现异步通信, 在保证模型生成图像质量不变的前提下显著提高推理效率.Xue等[25]针对采样过程中的时间步长离散化方案, 提出新的加速采样方法, 为求解逆向去噪过程对应的微分方程设计新的优化目标, 在减少采样步骤的前提下, 保持甚至提高生成图像的质量.

同时, 为了提高模型对提示文本的理解能力, 现有研究将大规模视觉语言模型引入文本生成图像模型中[10, 26], 利用大规模语言模型卓越的语义理解能力, 提升模型跨模态对齐精度, 改善模型生成图像的质量, 提高生成过程的可控性.尽管对文本理解能力的提高使模型生成的图像更符合输入文本的描述和用户意图, 但是由于自身的限制, 在生成具有多个描述对象的图像时, 性能仍具有很大的改进空间.

针对这一问题, Zhang等[5]提出ControlNet, 在标准扩散模型的基础上引入附加条件, 有效解决文本提示描述不精确时的图像生成问题, 使模型能更精准地引导生成图像的内容.Chefer等[8]提出Attend-and-Excite, 深入分析注意力图, 特别探究它们与输入文本的对应关系, 提出语义护理的概念, 从属性绑定的方面改进模型的生成结果.Yang等[27]提出SGDiff, 将场景图中结构化的高层次语义信息转化为扩散模型的指导信号, 设计遮掩对比预训练机制, 使模型能更高效地理解和利用场景图的局部语义和全局语义, 融合多层次信息的策略确保视觉细节与语义信息的双重一致性.Zheng等[28]提出Layout-Diffusion, 以布局信息作为条件指导生成过程, 相比文本信息, 可提供对象级别的控制, 包括位置、大小和类别, 并且同一布局下可生成多种风格和细节变化的图像, 提高模型生成多样性.然而, 引入这些额外的信息后, 不可避免地增加数据准备的成本, 并且多模态条件的组合方式会增加模型训练的难度.另外, 以文本以外的数据作为指导意见, 虽然增强模型的可控性, 但生成图像的真实性有所降低[29].为了消除这些负面影响, 部分研究人员将大型语言模型引入文本生成图像领域, 通过对文本提示进行预处理以提高模型对语义的理解, 从而提高图文一致性[30, 31], 但这些工作均需要对模型重新训练, 不适用于现在的大多数大型T2I.

另一相关的研究方向是寻求免训练的改进策略, 通过改进模型的推理过程以提高生成图像的质量.Huang等[32]提出Collaborative Diffusion, 结合动态扩散器, 对不同模态的特征进行联合优化, 确保生成结果与输入条件的一致性.Feng等[33]提出StructureDiffusion(Structured Diffusion Guidance), 将复杂文本描述拆分为多个子目标, 再通过分析交叉注意力层对齐每个子目标.另外, 为了更好地操纵交叉注意力层, Chen等[7]提出前向引导策略和后向引导策略:前向引导操控扩散模型输出噪声的过程, 在生成早期阶段施加额外的约束; 后向引导在生成阶段后期修正注意力分布, 进一步细化图像细节.在此基础上, Agarwal等[34]改进优化的目标, 提出A-STAR(Attention Segregation and Retention), 提升模型在图像生成任务中的相关性和多样性.Yang等[27]提出SGDiff, 通过多模态LLMs将复杂任务简单化, 提高生成图像语义一致性.

2 预训练模型
2.1 稳定扩散模型

扩散模型[2, 35]是一种概率生成模型, 训练过程包括两个阶段:前向扩散加噪过程和逆向去噪过程.在前向过程中, 服从高斯分布的噪声ϵ会逐渐添至干净图像x0中, 直至获得纯高斯噪声样本xt~N(0, I).根据马尔科夫链的性质, 在加噪过程中, 有

xt= ˉαtx0+ 1-ˉαtϵ,

其中, ϵ~N(0, I), α t表示一个递减的超参数, 可根据重参数化技巧获得

ˉαt= i=1tα i.

反向过程则是从噪声xT开始, 根据神经网络输出的噪声ϵθ (xt, t)进行逐步去噪处理, 其中, T表示总的时间步数, θ 表示模型参数, t表示当前步数.通过DDIMs(Denoising Diffusion Implicit Models)采样器[36]实现去噪, σ 表示采样器中可供选择的超参数, 在去噪过程中, 有

xt1=ˉαt1(xt1ˉαtϵθ(xt,t)ˉαt)+1ˉαt1σ2ϵθ(xt,t)+σϵ (1)

SD是一种潜在扩散模型(Latent Diffusion Mo- dels, LDMs), 在自编码器的潜在空间中操作.在将输入数据提供给模型之前, 需要经过一个编码器ε (· )将高维输入数据(图像x)映射至一个低维的潜在空间中, 得到潜在变量:

z=ε (x).(2)

去噪完成后, SD通过解码器D(· )重新构建图像, 实现

D(ε (x))≈ x.

在推理过程中, SD会直接从高斯分布中采样, 在潜在空间中生成噪声矩阵的潜在表示zt, 对zt进行逐步去噪处理, 再由解码器D重建生成图像.

2.2 GLIGEN

文本提示包含多个目标及其位置关系时, 造成T2I生成效果不佳的原因之一是T2I利用图文数据进行训练, 难以拥有较强的空间感知能力.一个潜在的解决方案是向T2I提供具有空间信息的先验知识, 优化生成图像的组合性, 如通过布局图、位姿图和分割图等训练得到生成模型.因此, 本文利用L2I提供先验知识, 指导T2I的生成过程.

在后续实验中, 本文的L2I均采用GLIGEN(Grounded Language to Image Generation)[29], 其神经网络层引入门控自注意力机制, 学习布局图数据, 获取空间信息.

具体空间信息提取过程如图1所示.

图1 空间信息提取过程Fig.1 Extraction of spatial information

GLIGEN同样基于扩散模型的生成范式, 设计可训练的门控自注意力层, 整合布局输入, 将编码后的图像特征与来自外部的布局图特征拼接, 形成一个联合特征表示, 再单独训练门控自注意力层, 使模型在保证原有生成能力的前提下, 更好地处理空间约束.

3 基于双重优化稳定扩散模型的文本生成图像方法

本文提出基于双重优化稳定扩散模型的文本生成图像方法(DualOpt-SD), 生成框架如图2所示.给定输入条件, 首先, 获取L2I学习的先验知识, 将L2I融入T2I中.然后, 通过设计的双重优化策略(Dual-Opt)调节方法推理过程中产生的噪声, 可在相应的区域中生成文本提示描述的多个物体.

图2 DualOpt-SD生成框架Fig.2 Generation framework of DualOpt-SD

DualOpt的核心是两种平衡策略:1)根据交叉注意力分数动态调节两种噪声的系数, 2)以去噪过程为基准阶段性调整预测模型权重.

这样, DualOpt-SD可在未进行训练或微调(对预训练模型进行小幅度参数调整以适应特定任务)的情况下提高对文本信息和空间信息的反映能力.

3.1 T2I和L2I的融合

为了满足L2I需要的布局信息, 首先利用大型语言模型强大的文本学习能力分析输入的文本提示, 并给出文本描述的主要对象的布局信息, 实现信息由文本到布局的转换以及对象和属性之间的“ 预绑定” , 然后将得到的布局信息作为L2I的输入.

从式(1)可清晰看出, 在DDIMs去噪过程中最终生成的图像只与神经网络输出的噪声ϵθ 有关, 它反映在当前时间步数下模型对xt的更新指导.在L2I中, ϵlayoutt表现更多的是对生成图像构成性的指导, 而在T2I中, ϵtextt表现更多的是对生成图像真实性的指导.因此, 本文认为混合两种不同模型预测得到的噪声, 可提高模型指导图像生成的综合能力.

然而, 不同模型输出的噪声矩阵的概率分布及时间步依赖性存在较大差异, 这种差异会对最终的生成效果产生不同的影响.为了减少这种差异带来的影响, 在每次去噪过程中动态调节两种噪声的比重.具体实现方式如下.在开始时为每个噪声设置一个相同的系数CT, 初始值采样于N(0, 1), 表示它们在去噪过程中的权重占比, 即

CtextT= ClayoutT~N(0, I).

接下来, 对 CtextTClayoutT进行softmax操作, 获得新的系数 ξtexttξlayoutt, 使混合后的噪声能更清晰地关注不同噪声中更重要的特征, 即

ξct= exp(Cct)exp(Ctextt)+exp(Clayoutt), (3)

其中c∈ {text, layout}.

由此, 获得平衡后的噪声:

ϵt=ξtext tϵtext t+ξlayout tϵlayout t (4)

其中☉表示像素乘法.

在每次去噪步骤中, 可根据式(3)和式(4)平衡每个模型生成的噪声, 并作为下一步模型的输入.

3.2 动态调整策略

在有条件图像生成模型中, 可通过交叉注意力层反映条件信息对生成图像的引导.每层产生的交叉注意力分数囊括条件信息提供的元素(如文本和引导图元素)和视觉元素之间大量的匹配信息(如位置、形状等).给定中间特征φ (zt)和文本标记τ θ (y), 由τ θ (y)利用线性投影计算得到键:

K=WK· τ θ (y),

其中WK表示可训练的权重矩阵.从φ (zt)中映射得到查询:

Q=WQ· φ (zt),

其中WQ表示可训练的权重矩阵.则T2I和L2I中各自的交叉注意力分数为:

Ac=softmax(Qc(Kc)Tdck),c{ text , layout },

其中, Acij表示第i个图像特征与第j个标记之间的注意力权重, j∈ {1, 2, …, N(τ θ (y))}, N(τ θ (y))表示τ θ (y)的总数, dk表示键K的维度.

然后, 可根据T2I和L2I在推理过程中产生的注意力分数设计损失函数, 更新赋予噪声的系数.首先, 将大语言模型根据文本提示推理得到的布局信息表示为B={b1, b2, …, bn}, 其中n表示引导图中边界框的总数.每个边界框对应一个二进制掩码Mb, 框内的值为1, 框外的值为0.本文的目的是通过下一时间步获得的交叉注意力分数平衡当前不同模型输出的噪声, 因此通过式(4)获得最初的混合噪声ϵt-1后, 模型会在潜在空间中先得到噪声水平减小的潜在变量zt-1.zt-1反馈给两个模型后获得下一时间步的交叉注意力分数 Act-1, 根据 Act-1和掩码Mb, 损失函数如下:

Ldynamic (Atext t1,Alayout t1)=nk=1(1iAtext ijb,t1MbiAtext ijb,t1)+nk=1(1iAlayout ijb,t1MbiAlayout ijb,t1),

其中, jb表示与边界框b中的图像特征对应的文本标记索引号, i表示图像特征的索引号.

通过计算边界框内注意力分数总和与整幅图像注意力分数之间的关系构建损失函数, 有效平衡局部特征和全局特征的分配, 不仅使模型能聚焦于关键的局部细节, 也保证对整体场景的理解.同时计算T2I注意力分数和L2I注意力分数, 让模型能更有效地融合图像和文本的多模态信息, 在生成过程中关注生成对象本身的同时, 也实现对框外区域的生成, 提高模型的综合理解能力.

为了使模型能更准确地关注边界框内的区域, 本文还设计布局损失Llayout和文本损失Ltext.前者衡量模型定位边界框的能力, 后者通过计算边界框内的注意力分数, 改善模型分离不同目标主体的能力.具体公式如下:

Llayout= 1(y2-y1)(x2-x1)i=y1y2-1jb=x1x2-1(1- Alayoutijb,t-1)2,

Ltext= 1(y2-y1)(x2-x1)i=y1y2-1jb=x1x2-1(1- Atextijb,t-1)2,

其中, (x1, y1)和(x2, y2)分别表示边界框的左上角顶点坐标和右下角顶点坐标, t表示时间步数.

综上所述, 最终的损失函数如下:

L( Atextt-1, Alayoutt-1)=Ldynamic+Llayout+Ltext.(5)

通过损失函数更新平衡系数:

Cct= Cct-ρ t CctL( Atextt-1, Alayoutt-1), (6)

其中, ρ t表示更新率, Ñ 表示计算损失函数L( Atextt-1, Alayoutt-1)关于系数 Cct的梯度.

通过不断的更新, 增强两个模型对生成对象的定位能力, 同时保留T2I信息, 使模型生成的图像更真实.

本文第2节中介绍SD在进行推理时, 逆向去噪过程实际是在潜在空间中进行的, 因此可通过动态调整策略得到一个噪声水平降低的潜在变量, 记为 z(1)t-1.

3.3 阶段性调整策略

如3.1节介绍, 在第一种策略中本文利用实时的交叉注意力分数调整噪声, 然而在不同的去噪阶段模型关注的重点并不相同.为了进一步增强模型对位置信息的把控, 在去噪前期赋予L2I更多的关注, 在去噪中期给予T2I更多的发挥空间.这主要是因为无论是L2I还是T2I, 在去噪前期都更注重生成图像的整体布局和结构, 整体的去噪力度也较强.另一方面, 作为L2I条件输入的引导图本身就包含一定的结构信息, 所以模型的去噪也就更有针对性, 得到的潜在变量也更符合用户的预期.在去噪中后期, 模型通常会进一步细化图像, 更注重细节和纹理的描述, 去噪力度也更柔和.因此, 在此阶段将T2I作为主要的去噪手段, 利用语义更丰富、描述更细致的文本信息指导模型去噪.

假设T2I的权重为 wtextt, L2I的权重为 wlayoutt, t表示当前时间步数, T表示总步数, λ 1λ 2表示超参数步数, 1< λ 1< λ 2< T, 则

wtextt= {λ1T,0<tλ1λ2T,λ1<tλ21,λ2<tT(7)

当0< tλ 1时为去噪前期, λ 1< tλ 2时为去噪中期, λ 2< tT时为去噪后期, 而

wlayoutt=1- wtextt.(8)

在进行分段策略调整后, 模型可根据不同的需求灵活调整去噪过程的关注重点, 使去噪方向和生成需求更匹配, 进而提升模型生成图像的质量.阶段性噪声平衡策略如下:

ϵt=wtexttϵtextt+wlayouttϵlayoutt (9)

同动态调整策略一样, 模型在经过阶段性调整策略后也会获得一个噪声水平减少的潜在变量, 记为 z(2)t-1.

3.4 图像生成优化

DualOpt-SD是对SD推理过程的去噪阶段的改善, 在此阶段模型会在潜在空间中生成一个从高斯分布采样获得的噪声zt, 然后由模型进行去噪处理.通过提出的生成框架将L2I融入T2I后, 在每步迭代过程中DualOpt将根据两种策略对模型输出的噪声进行优化调整, 最终融合作为下一步去噪处理的原始噪声输入.然后, 以同样的步骤不断更新迭代, 直至去噪完成.动态调整策略获得的潜在变量为 z(1)t-1, 阶段性调整策略获得的潜在变量为 z(2)t-1, 所以每次去噪过程中得到潜在变量为:

zt-1=λ z(1)t-1+(1-λ ) z(2)t-1, (10)

其中, λ 表示控制两个潜在变量在加权平均中相对权重的超参数, 0< λ < 1.

3.5 详细步骤

DualOpt-SD具体步骤如下所示.

算法 DualOpt-SD

输入 预训练的文本生成图像模型T2I,

预训练的布局图生成图像模型L2I,

一段文本提示P, 一张布局图B

输出 生成图像x

初始化 zt~N(0, I), CtextT= ClayoutT~N(0, I)

for t = T, T-1, …, 1 do

[ϵtext t,Atext t]=T2I(zt,P,t),

[ϵlayout t,Alayout t]=L2I(zt,P,B,t),

根据式(3)和式(4)获得初步融合后的动态调整系数和预测噪声, 分别记为 ~ξtextt~ξlayoutt˜ϵt,

根据式(1)和式(2)获得初步去噪后的潜在变量 ~zt-1,

获取模型去噪过程中的 Atextt-1Alayoutt-1,

[ϵtextt1,Atextt1]=T2I(zt1,P,t),

[ϵlayout t1,Alayout t1]=L2I(zt1,P,B,t),

根据式(5)计算L( Atextt-1, Alayoutt-1),

由式(6)更新 Cct, 获得优化后的 ξtexttξlayoutt及平衡后的ϵ1t, 并由式(1)和式(2)得到 z(1)t-1,

根据式(7)和式(8)获得对应当前去噪阶段的权重 wtexttwlayoutt,

由式(9)计算平衡后的ϵ2t, 并由式(1)和式(2)得到 z(2)t-1,

由式(10)计算得到最终的zt-1,

end for

return z0

DualOpt-SD(z0, y)→ x

4 实验及结果分析
4.1 实验设置

DualOpt-SD是一个整合LLMs、T2I和L2I优势的易扩展的免训练图像生成模式, 可根据需求选择合适的模型实现文本生成图像.本文实验利用GPT- 4(Generative Pre-trained Transformer 4)生成布局信息, 选择SD1.4文本生成图像模型作为主要的T2I, 将GLIGEN作为主要的L2I.在去噪过程中, 设置T=50, λ 1=15, λ 2=40, λ =0.2.

参考Attend-and-Excite中的评估方法[8], 实验使用其构建的动物和动物、动物和物体、物体和物体文本提示数据集评估DualOpt-SD.

在测试时, 通常情况下本文提供的文本提示主要包含两个主体, 但文本生成图像不局限于这些情景, 在结合L2I的优势后, 面对包含更多信息的文本提示, DualOpt-SD也能生成主体分布更合理的图像.

4.2 对比实验

4.2.1 生成图像对比

首先选择如下当前生成效果较优的方法进行对比实验:SD[1]、Attend-and-Excite[8]、A-STAR[34]、Divide-and-Bind[37].

当文本提示不同时, 各方法的生成图像如图3所示.由图可见, 当文本提示包含多个主体时, 对比方法生成的图像文本提示中各个主体之间的概念会产生明显的混合, 导致图像的真实性降低.在相同的文本提示和随机种子下, DualOpt-SD可更好地区分各个主体并生成图像.例如:当输入条件为“ a cat and a rabbit” 时, 在对比方法生成的图像中, 兔子和猫均在一定程度上融合对方的特征.DualOpt-SD结合L2I的优势, 在去噪过程中动态调整模型关注的区域, 避免主体信息之间的混合.同时, 引入阶段性调整策略, 在去噪中后期能更大程度发挥T2I的优势, 更好地处理各个主体的细节和纹理, 生成的图像更真实.另一方面, Attend-and-Excite、Divide-and-Bind和A-STAR是通过单一模式调整去噪过程中的噪声图像, 在面对不同的文本提示时, 生成效果差距较大.当提示是关于动物和物体时, 方法往往能区分不同的主体, 但会混淆与之匹配的颜色信息, 而给定有关物体和物体的条件, 生成的图像与条件相比会产生较大偏差, 且伴有“ 物体组合” 的现象.相比之下, DualOpt-SD在处理不同形式的条件时展现出更高的稳定性和适应性, 更精准地满足生成约束, 并有效降低目标错配和不合理组合的现象.

图3 文本提示不同时各方法的生成图像对比Fig.3 Comparison of images generated by methods with different text prompts

另外, L2I的引入让用户可更自由地选择提示文本中主体在生成图像中的位置, 同时LLMs对于文本的分析能力能合理规划整幅图像的布局, 从而使方法生成更符合用户想象力的图像.DualOpt-SD不仅能生成仅描述目标物体的情景图像, 在提供特定环境描述的情况下, 同样能给出高质量的场景图像, 展现出对比方法不具备的在复杂场景中构建图像的能力, 具有更高的灵活性与可控性.在处理复杂文本时, SD往往难以协调多个元素之间的空间关系, 而DualOpt-SD通过优化策略, 在保证图像真实性的同时, 能合理分布画面中的不同元素, 提高生成图像的协调性.

当提供更密集的文本提示时, DualOpts-SD生成复杂情景图像如图4所示.由图可见, 对于风景、特定风格及复杂场景的描述, DualOpt-SD均能精准理解提示信息, 并生成令人满意的图像.

图4 复杂文本提示时DualOpt-SD的生成图像Fig.4 Generation results of DualOpt-SD with complex text prompts

4.2.2 图文一致性对比

根据Attend-and-Excite中的评定方法[8], 设置相同随机种子, 对每类文本提示均生成64幅图像, 再利用CLIP(Contrastive Language-Image Pre-trai-ning)文本-文本相似度[38]评估DualOpt-SD.

本次实验借鉴Attend-and-Excite中的设置, 评估完整提示相似度(完整提示和生成图像之间的余弦相似性)和最小对象相似度(生成图像和两个主题提示之间相似度的最小值).选择的对比方法包括:SD[1]、Attend-and-Excite[8]、StructureDiffusion[33]、A-STAR[34]、Divide-and-Bind[37]、Composable Diffu-sion[39], 对比结果如图5所示.

图5 各方法的图文一致性对比结果Fig.5 Comparison results of text-image alignment among different algorithms

由图5可见, 在3种类型文本提示下, DualOpt-SD的完整提示相似度均优于对比方法, 在每个子集上相比次优方法均有2%及以上的提升.在最小对象相似度上, DualOpt-SD在处理包含动物和动物以及物体和物体类型的文本提示方面表现尤为突出, 生成的图像质量最优.此外, 对于包含动物和物体混合元素的提示, DualOpt-SD也能达到当前最优方法的效果.

另外, 本文还计算CLIP文本-文本相似度, 具体方法是先利用BLIP(Bootstrapping Language-Image Pre-training)为生成的图像生成一个标题, 然后计算生成标题与提示文本之间的相似度, 最终结果同样如图5所示.由图可见, DualOpt-SD在动物和物体、物体和物体类型的文本提示下表现出一定优势, 对于纯动物组合的文本提示, DualOpt-SD也实现细微但值得注意的改进.

4.2.3 用户评价结果对比

本文共邀请116名志愿者参与主观测评, 包括11名具有图像处理专业知识的志愿者及105名其它领域的志愿者.

实验共选取5个文本提示, 由SD[1]、Attend-and-Excite[8]、Structure-Diffusion[33]、A-STAR[34]、Divide-and-Bind[37]、Composable Diffusion[39]和DualOpt-SD生成各自对应的5幅图像.

测评由两部分组成.首先11名专业参与者被要求根据图文一致性、视觉效果、布局合理性、细节描绘以及图像风格五个核心评价指标对给出的生成图像进行评分.

在该评分体系中, 每项评价指标满分为5分, 得分越高表明该方法生成图像的质量越优, 具体统计结果如表1所示.其次, 研究所有志愿者对各方法生成图像整体质量的主观评价.针对每个文本提示下的由7种生成图像方法生成的7幅图像, 要求参与者从中选择最符合输入文本的一幅图像, 具体统计结果如表2所示.

表1 相关领域评审人员的评分统计结果 Table 1 Statistical results of scores given by reviewers in related fields
表2 用户投票统计结果 Table 2 Statistical results of user voting

表1表2可知, DualOpt-SD的生成图像基于5项指标的总体得分为20.5, 整体质量用户总票数为427, 明显超过对比方法.两次测评结果均表明Dual-Opt-SD生成的图像在主观评价中具有更高的认可度.相比对比方法, DualOpt-SD生成的图像在图文一致性、视觉效果及细节描绘等方面表现更优, 能准确反映文本提示的内容, 视觉质量更高.

4.3 参数分析

4.3.1 策略权重

为了探讨策略权重λ 对DualOpt-SD性能的影响, 在实验中选取位于[0, 1]区间内的6个λ 值, 即λ =0, 0.2, 0.4, …, 1.0, 并在相同的文本提示条件下评估方法的生成效果.

实验仍依托Attend-and-Excite中的三类文本提示[8], 并采用其中的完整提示相似度作为评价指标.针对每个策略权重值, 分别计算该权重下方法生成图像与完整输入文本之间的相似度得分, 并取平均值作为性能的衡量指标, 结果如图6中的6个散点所示.基于上述数据, 进一步绘制λ 取值与评价指标之间的拟合曲线, 可视化λ 对DualOpt-SD性能影响的变化趋势.

图6 λ 不同对DualOpt-SD性能的影响Fig.6 Effect of λ on DualOpt-SD performance

由图6可见, 动态调整策略在提升DualOpt-SD性能的方面起到关键作用, 阶段性调整作为辅助策略能进一步增强方法生成的图像质量.当λ =0.8时, DualOpt-SD生成图像效果最优.

4.3.2 推理时间

在单张Tesla V100s-32G GPU运算卡上设置实验, 随机生成50幅分辨率为512× 512的图像, DualOpt-SD的平均每幅耗时为16.32 s, 慢于平均每幅图像耗时7.86 s的SD, 但生成的图像质量更优, 本文认为牺牲这一部分推理速度对提升图像质量是值得的.

4.4 消融实验

4.4.1 T2I和L2I的简单融合

T2I在处理包含多个目标的文本描述时, 难以精准控制各个对象在图中的空间布局和数量分布, 其中一个重要原因在于T2I在训练过程中从文本中学习的空间信息较有限, 导致在生成阶段对于提示中的多个物体的空间约束和目标关系容易出现差错.本文将L2I融入T2I, 并利用L2I学习的空间知识, 指导T2I的生成过程.

直接将L2I与T2I融合得到的生成图像与SD生成图像的对比如图7所示.由图可见, 相比SD, 直接融合T2I与T2I模型的生成图像在图文一致性方面取得一定程度的提升.这是因为, L2I提供显式的空间约束, 使模型在生成过程中能更精确地理解文本提示中的位置关系, 但简单的融合方式使生成效果并不稳定, 在部分情况下生成图像的真实性会有所降低.例如:在图7的最后一幅图中, “ 爆米花” 的位置以及出现方式并不合理, 这可能是由于模型过度依赖L2I提供的先验知识, 忽略部分视觉细节, 导致生成图像的质量下降.

图7 仅简单融合T2I和L2I的模型与SD的生成图像对比Fig.7 Comparison between images generated by the model simply integrating T2I with L2I and those generated by SD

4.4.2 动态调整策略的有效性

为了实现L2I和T2I之间更精细的融合机制, 本文提出动态调整策略, 旨在通过注意力分数的约束, 在生成过程中动态平衡两个模型对生成图像的指导, 从而在实现对目标主体分离的同时, 保证生成图像的真实性.具体生成图像如图8所示.

图8 加入动态调整策略后的模型与SD的生成图像对比Fig.8 Comparison between images generated by the model with a dynamic adjustment strategy and SD

由图8可见, 当给定文本提示“ A brown teddy bear holding a blue water cup sits on the sofa” 时, SD生成图像与文本提示之间存在显著差异.这种不一致性在视觉层面表现明显, 但在深层次上归因于模型在去噪过程中的选择性偏差.具体而言是模型尝试从随机噪声中重建图像时, 单一的文本条件提供的信息有限, 导致去噪方向未能反映文本提示的要求, 最终使生成图像偏离预期的结果.融合L2I并采用动态调整策略后, 模型在接受文本信息约束的同时, 利用引导图提供的精确位置信息增强其空间定位能力, 并且根据新的生成框架在去噪过程中通过L( Atextt-1, Alayoutt-1)动态调整生成的噪声图, 确保生成图像既符合文本描述也在视觉表达上更准确一致, 可有效解决主体混合问题.

4.4.3 阶段性调整策略的有效性

利用动态调整策略约束L2I和T2I的融合, 实现模型对目标主体的精确生成, 但仍在一定程度上牺牲生成图像的细粒度属性, 如图9中第2幅图像和第3幅图像所示, 仅设置动态调整策略, 生成图像的主体颜色可能会与描述相比出现些许差异, 文本中描述的白色花朵表达不明显.因此本文提出阶段性调整策略, 并在相同的文本提示下进行实验, 验证策略的有效性.

图9 阶段性调整策略加入前后的生成图像对比Fig.9 Comparison of generated images before and after implementing phased adjustment strategy

从图9中第4幅图像和第5幅图像可直观观察到白色花朵明显增多并且花瓶也更真实, 说明在不同的去噪阶段模型关注的重点并不相同, 阶段性指导模型的去噪方向, 使模型在详细刻画生成图像纹理和细节阶段接收更多来自T2I的指导, 在确定图像整体布局的阶段接收更多来自L2I的指导, 可提高生成图像的质量.

4.4.4 DualOpt的有效性

为了进一步验证DualOpt的有效性, 对比单独设置DualOpt和DualOpt-SD的生成图像, 结果如图10所示.如图10第1行所示, 相比SD, 仅设置动态调整策略或阶段性调整策略, 生成图像质量并未呈现显著提升.这是由于在不融合L2I的情况下, 两种策略对生成过程的约束与SD训练并无实质性区别, 模型仍缺少对空间信息的感知能力.

图10 DualOpt加入前后的生成图像对比Fig.10 Comparison of generated images before and after implementing DualOpt

如图10第2行所示, 仅设置DualOpt时, 尽管生成图像的质量有所改善, 但图像内容与输入文本之间仍存在一定偏差(花盆颜色与文本提示不匹配且向日葵出现错误的蓝色), 表明DualOpt在一定程度上优化图像质量, 但在语义一致性方面仍存在一定的局限性.最后, 利用DualOpt-SD生成相应的图像作为对比, 结果表明, 预训练L2I中学习的空间知识可有效指导T2I的生成过程, 提高生成性能, 这也从侧面验证融合各策略有助于方法性能的提升.

5 结束语

本文研究扩散模型的逆向去噪过程, 根据这一过程中表现的特性, 提出基于双重优化稳定扩散模型的文本生成图像方法(DualOpt-SD).DualOpt-SD将L2I融入T2I中, 并设计双重优化策略(DualOpt), 对输出的噪声进行平衡和优化, 实现真实性和相关性的综合提升.同时, 为了获取更准确的对象位置信息, 引入LLMs, 分析文本提示, 获取预布局.特别地, DualOpt-SD是免训练的、即插即用的, 可有效集成到现有的扩散模型中, 实现可控的文本生成图像.实验表明DualOpt-SD在多对象生成方面性能较优.然而, DualOpt-SD在一定程度上增加扩散模型推理时的计算开销, 限制其实用性.因此, 通过蒸馏与量化技术实现扩散模型的轻量化, 提高其推理效率是今后重点考虑的研究方向之一.

本文责任编委 桑农

Recommended by Associate Editor SANG Nong

参考文献
[1] ROMBACH R, BLATTMANN A, LORENZ D, et al. High-Resolution Image Synthesis with Latent Diffusion Models // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2022: 10674-10685. [本文引用:4]
[2] HO J, JAIN A, ABBEEL P. Denoising Diffusion Probabilistic Mo-dels // Proc of the 33rd International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2020: 6840-6851. [本文引用:2]
[3] NICHOL A Q, DHARIWAL P, RAMESH A, et al. GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. Proceedings of Machine Learning Research, 2022, 162: 16784-16804. [本文引用:1]
[4] AVRAHAMI O, HAYES T, GAFNI O, et al. SpaText: Spatio-Textual Representation for Controllable Image Generation // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2023: 18370-18380. [本文引用:1]
[5] ZHANG L M, RAO A Y, AGRAWALA M. Adding Conditional Con-trol to Text-to-Image Diffusion Models // Proc of the IEEE/CVF International Conference on Computer Vision. Washington, USA: IEEE, 2021: 3813-3824. [本文引用:2]
[6] KIM Y, LEE J, KIM J H, et al. Dense Text-to-Image Generation with Attention Modulation // Proc of the IEEE/CVF International Conference on Computer Vision. Washington, USA: IEEE, 2023: 7667-7677. [本文引用:3]
[7] CHEN M H, LAINA I, VEDALDI A. Training-Free Layout Control with Cross-Attention Guidance // Proc of the IEEE/CVF Winter Conference on Applications of Computer Vision. Washington, USA: IEEE, 2024: 5331-5341. [本文引用:3]
[8] CHEFER H, ALALUF Y, VINKER Y, et al. Attend-and -Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models // Proc of the 42nd International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2023. DOI: 10.1145/3592116. [本文引用:9]
[9] RAMESH A, DHARIWAL P, NICHOL A, et al. Hierarchical Text-Conditional Image Generation with CLIP Latents[C/OL]. [2024-12-25]. https://arxiv.org/pdf/2204.06125. [本文引用:1]
[10] SAHARIA C, CHAN W, SAXENA S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understand ing // Proc of the 36th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2022: 36479-36494. [本文引用:2]
[11] MIN S, LYU X X, HOLTZMAN A, et al. Rethinking the Role of Demonstrations: What Makes In-Context Learning Work // Proc of the Conference on Empirical Methods in Natural Language Proce-ssing. Stroudsburg, USA: ACL, 2022: 11048-11064. [本文引用:1]
[12] TAO M, TANG H, WU F, et al. DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2022: 16494-16504. [本文引用:1]
[13] 余凯, 宾燚, 郑自强, . 基于条件语义增强的文本到图像生成. 软件学报, 2024, 35(5): 2150-2164.
(YU K, BIN Y, ZHENG Z Q, et al. Text-to-Image Generation with Conditional Semantic Augmentation. Journal of Software, 2024, 35(5): 2150-2164. ) [本文引用:1]
[14] DING M, YANG Z Y, HONG W Y, et al. CogView: Mastering Text-to-Image Generation via Transformers // Proc of the 35th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2021: 19822-19835. [本文引用:1]
[15] RAMESH A, PAVLOV M, GOH G, et al. Zero-Shot Text-to-Image Generation. Proceedings of Machine Learning Research, 2021: 139: 8821-8831. [本文引用:1]
[16] 刘子健, 王兴梅, 陈伟京, . 基于硬负样本对比学习的水下图像生成方法. 模式识别与人工智能, 2024, 37(10): 887-909.
(LIU Z J, WANG X M, CHEN W J, et al. Underwater Image Generation Method Based on Contrastive Learning with Hard Negative Samples. Pattern Recognition and Artificial Intelligence, 2024, 37(10): 887-909. ) [本文引用:1]
[17] XU T, ZHANG P C, HUANG Q Y, et al. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2018: 1316-1324. [本文引用:1]
[18] ZHANG H, XU T, LI H S, et al. StackGAN: Text to Photo-Rea-listic Image Synthesis with Stacked Generative Adversarial Networks // Proc of the IEEE International Conference on Computer Vision. Washington, USA: IEEE, 2017: 5908-5916. [本文引用:1]
[19] ZHANG H, KOH J Y, BALDRIDGE J, et al. Cross-Modal Con-trastive Learning for Text-to-Image Generation // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2021: 833-842. [本文引用:1]
[20] LIAO W T, HU K, YANG M Y, et al. Text to Image Generation with Semantic-Spatial Aware GAN // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2022: 18166-18175. [本文引用:1]
[21] VAN DEN OORD A, KALCHBRENNER N, VINYALS O, et al. Conditional Image Generation with PixelCNN Decoders // Proc of the 30th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2016: 4797-4805. [本文引用:1]
[22] ZHOU Y, GAO X, CHEN Z C, et al. Attention Distillation: A Uni-fied Approach to Visual Characteristics Transfer[C/OL]. [2024-12-25]. https://arxiv.org/pdf/2502.20235 [本文引用:1]
[23] LIANG Y W, HE J F, LI G, et al. Rich Human Feedback for Text-to-Image Generation // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2024: 19401-19411. [本文引用:1]
[24] LI M Y, CAI T L, CAO J X, et al. DistriFusion: Distributed Pa-rallel Inference for High-Resolution Diffusion Models // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2024: 7183-7193. [本文引用:1]
[25] XUE S C, LIU Z Q, CHEN F, et al. Accelerating Diffusion Sampling with Optimized Time Steps // Proc of the IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2024: 8292-8301. [本文引用:1]
[26] KANG M, ZHU J Y, ZHANG R, et al. Scaling up GANs for Text-to-Image Synthesis // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2023: 10124-10134. [本文引用:1]
[27] YANG L, HUANG Z L, SONG Y, et al. Diffusion-Based Scene Graph to Image Generation with Masked Contrastive Pre-Training[C/OL]. [2024-12-25]. https://arxiv.org/pdf/2211.11138. [本文引用:2]
[28] ZHENG G C, ZHOU X P, LI X W, et al. LayoutDiffusion: Controllable Diffusion Model for Layout-to-Image Generation // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2023: 22490-22499. [本文引用:1]
[29] LI Y H, LIU H T, WU Q Y, et al. GLIGEN: Open-Set Grounded Text-to-Image Generation // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2023: 22511-22521. [本文引用:2]
[30] QU L G, WU S Q, FEI H, et al. LayoutLLm-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation // Proc of the 31st ACM International Conference on Multimedia. New York, USA: ACM, 2023: 643-654. [本文引用:1]
[31] TOUVRON H, LAVRIL T, IZACARD G, et al. LLaMa: Open and Efficient Foundation Language Models[C/OL]. [2024-12-25]. https://arxiv.org/pdf/2302.13971. [本文引用:1]
[32] HUANG Z Q, CHAN K C K, JIANG Y M, et al. Collaborative Diffusion for Multi-modal Face Generation and Editing // Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2023: 6080-6090. [本文引用:1]
[33] FENG W X, HE X H, FU T J, et al. Training-Free Structured Di-ffusion Guidance for Compositional Text-to-Image Synthesis[C/OL]. [2024-12-25]. https://arxiv.org/pdf/2212.05032. [本文引用:3]
[34] AGARWAL A, KARANAM S, JOSEPH K J, et al. A-STAR: Test-Time Attention Segregation and Retention for Text-to-Image Synthesis // Proc of the IEEE/CVF International Conference on Computer Vision. Washington, USA: IEEE, 2023: 2283-2293. [本文引用:4]
[35] 岳忠牧, 张喆, 吕武, . De-DDPM: 可控、可迁移的缺陷图像生成方法. 自动化学报, 2024, 50(8): 1539-1549.
(YUE Z M, ZHANG Z, W, et al. De-DDPM: A Controllable and Transferable Defect Image Generation Method. Acta Automatica Sinica, 2024, 50(8): 1539-1549. ) [本文引用:1]
[36] SONG J M, MENG C L, ERMON S. Denoising Diffusion Implicit Models[C/OL]. [2024-12-25]. https://arxiv.org/pdf/2010.02502. [本文引用:1]
[37] LI Y M, KEUPER M, ZHANG D, et al. Divide & Bind Your Atten-tion for Improved Generative Semantic Nursing[C/OL]. [2024-12-25]. https://papers.bmvc2023.org/0366.pdf. [本文引用:3]
[38] RADFORD A, KIM J W, HALLACY C, et al. Learning Transfe-rable Visual Models from Natural Language Supervision[C/OL]. [2024-12-25]. https://arxiv.org/pdf/2103.00020. [本文引用:1]
[39] LIU N, LI S, DU Y L, et al. Compositional Visual Generation with Composable Diffusion Models // Proc of the European Confe-rence on Computer Vision. Berlin, Germany: Springer, 2022: 423-439. [本文引用:2]