(通讯员 刘明君)
近日,bevictor伟德官网毛琪副教授团队带领本科生与新加坡国立大学Mike Zheng Shou 助理教授团队合作的论文被人工智能与多媒体顶会2024 ACM Multimedia (ACM MM)录用。
ACM MM是中国计算机学会(CCF) 推荐的A类国际学术会议,ACM MM2024为该会议的第32届会议,将于2024年10月28日至11月1日在澳大利亚墨尔本举行。本届会议共收到 4385 篇有效投稿,其中 1149 篇被录用,录用率为 26.20%。
论文简介
题目:MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance
论文概览:大规模文本到图像(T2I)扩散模型的最新成果展示了它们在生成高质量、多样化图像方面的卓越能力,尤其是在反映特定文本描述时。经过大量数据集的训练,这些模型能有效地将文本与相应图像联系起来,开辟了基于文本图像编辑的新可能性。过去一年中,基于扩散模型的文本图像编辑方法显著增加,大致可分为三类:基于指令的训练、微调以及无需训练的方法。本文聚焦于改进无需训练的编辑方法。现有无需训练的方法,如混合潜在扩散模型(Blended Latent Diffusion),会导致编辑区域的结构显著改变,破坏与复杂背景的视觉和谐。基于注意力的编辑方法(如Prompt-to-Prompt)能保持原始图像的结构和布局,但编辑效果可能超出目标区域。尽管结合这两种方法可以减少目标区域之外的编辑,但在与文本提示的精确对齐方面仍存在挑战,导致编辑内容无法准确定位。为解决这些问题,本文提出了一种新颖的优化策略,称为基于掩码的注意力调整引导(MAG-Edit)。该方法在推理阶段使用两个基于掩码的交叉注意力约束条件,对噪声潜特征进行局部优化,以增强图像特征与文本的对齐程度,从而实现平衡效果和结构的局部编辑。
本工作由“韦德官方网站智能多媒体处理小组(CUC-MIPG)”主导完成。其中,公司2020级数字媒体技术系本科生陈澜同学和2021级人工智能系本科生方镇同学参与了该项研究。近年来,bevictor伟德官网积极推动人工智能生成内容(AIGC)等前沿领域的科研团队建设。围绕“媒体内容智能生成”这一核心课题,学院推动本科生参与科研工作,通过设立科研项目、组织学术讲座、鼓励跨学科合作等多种形式,创造丰富的学习和研究机会。这不仅有助于发掘和培养媒体融合与传播研究的青年科技人才,也为推动媒体融合的深入发展贡献了力量。
算法效果
项目地址