73, 146对高质量的训练样本帮助合成图变得更加逼真且“隐形”

73,146对高质量的训练样本帮助合成图变得更加逼真且“隐形”。这个问题从传统方法中的“生硬拼接”转变为“隐形融合”。在过去，当把春天照片里的一朵花抠出来贴到雪地背景上时，亮度、色温、阴影甚至季节感就会产生冲突。传统的图像合成技术需要大量人工调整图层蒙版和颜色，费时费力还难以完全消除违和感。深度学习的兴起给这个难题带来了希望，但却因为训练数据极度稀缺而遇到障碍，因为高质量的合成图和真实图对很难找到且昂贵。为了弥补这一缺陷，研究者们提出了一个解决办法，他们扩展了早期方案并发布了73,146对合成/真实图数据集。这个数据集涵盖了四大场景：HCOCO、HAdobe5k、HFlickr和Hday2night。HCOCO是从COCO数据集中选取前景图片进行抠图和颜色迁移；HAdobe5k利用Adobe5k中每幅图片五种不同版本的人工编辑特权来生成前景与背景同源的合成图；HFlickr爬取了ImageNet 1000类外延图片来提高场景多样性；Hday2night抓取了同一地点不同时间段的照片以符合域迁移设定。这些数据经过自动筛选和人工细筛后被保留下来，形成了最终的四大子库。为了让前景能够完美融入背景，研究者们引入了一个秘密武器：域验证鉴别器。通过将光照、天气和季节视为独立的域，合成图中前景与背景属于不同域，而真实图两者同属一个域。这就把任务重新定义为将前景翻译到与背景同一域的问题。基于UNet结构嵌入注意力块的网络结构被设计出来，并加入了全局鉴别器和域验证鉴别器。全局鉴别器用于让生成的图像逼近真实图像分布；域验证鉴别器专门用于比对前景与背景的域差异，通过部分卷积提取特征并计算损失。生成器需要同时“骗过”这两个鉴别器，双重压力下前景就学会了适应背景语言。实验结果显示主观用户研究和客观指标都取得了双赢。研究者们在自建数据集和公开基准图上进行了主观评测结果表明：传统方法平均打分为3.1，深度学习基线为3.4，而研究者们的方法达到了3.8，几乎没有显著差异。客观指标上看，域验证损失持续下降，合成图与真实图之间的差异被拉近到肉眼难以察觉的程度。数据和代码已经开源在GitHub上供大家使用，并且可以直接用于训练新架构或进行预训练微调。通过这次发布的数据与算法双轮驱动，“违和感”正被算法悄悄抹平。未来你看到的合成广告或短视频可能就出自这个由73,146对高质量训练样本调教出来的系统。这些数据还可以应用在一些小众但潜力巨大的场景中：比如电商详情页把模特抠图无缝放进产品实拍场景；影视预览中绿幕特效提前和谐减少后期返工；增强现实中AR贴纸与真实背景融为一体提升沉浸感等等。