《计算机应用》唯一官方网站 ›› 2024, Vol. 44 ›› Issue (4): 1093-1098.DOI: 10.11772/j.issn.1001-9081.2023050634
所属专题: 人工智能
Jinsong XU, Ming ZHU(), Zhiqiang LI, Shijie GUO
摘要:
由于文本的模糊性和训练数据中位置信息的缺失,当前先进的扩散模型无法在文本提示的条件下准确控制生成对象在图像中的位置。针对这一问题,加入对象位置范围的空间条件,并基于U-Net中的交叉注意力图和图像空间布局的强关联性,提出一种注意力引导方法控制注意力图的生成,以控制对象的生成位置。具体地,基于稳定扩散(SD)模型,在U-Net层中的交叉注意力图生成的早期阶段,通过引入损失激发相应位置范围的高注意力值,减小范围外的平均注意力值,并在每一个去噪步骤中逐步优化隐空间中的噪声向量,从而控制注意力图的生成。实验结果表明,所提方法能明显控制一个或多个对象在生成图像中的位置,并在生成多个对象时能减少对象缺失、生成冗余对象和对象融合的现象。
中图分类号: