产品

RealityCompose

现实合成解决方案

RealityEditor Team




我们开源基于Stable Diffusion模型的图像合成方案。与其他图像合成方法的相比的优势,我们的方案 1. 不需要针对每个合成目标构建大规模数据集,实现了通用意义的图像合成; 2. 实现了语义级别的合成,合成的图像考虑了光照,位置等细节,让效果更真实。

我们深入理解图像合成技术的挑战,并积极寻求创新思路和算法优化,以达到更高的效率和质量。因此,选择Stable Diffusion模型来实现定向目标的可控图像生成。 该模型采用了先进的技术与算法,可生成具有高分辨率、清晰度、真实感和艺术性的图片结果。本文中的两个demo充分展示了本方案的强大效果与广泛应用价值。

模型结构

我们基于AIGC中的Stable Diffusion模型,提出了新的现实编辑方案来实现图像合成。利用下图的框架,用户只需要输入相应的图像和文字,就可以完成他们想要的合成效果,再也不需要大规模的数据训练,以及手动的图像处理和分割,并且我们的方案的融合效果远远超越传统方法。 在框架中,我们在Stable Diffusion模型(白色模块)之外,利用CLIPSeg(橙色模块)提供了开放世界分割能力,来找出被合成区域。




模型训练

我们的通用图像合成方案,首先利用CLIPSeg模型来进行开放世界分割。CLIPSeg能够根据不同的文本输入,对图像去进行自动的高精度分割。分割所得的掩码区域可以应用于后续处理图像的特征。 然后,我们为Stable Diffusion设计了合适的prompt模板——“a photo with [SKS]”的作为条件输入,与被掩码处理的目标物体图像一起进入Stable Diffusion进行生成。 最后,生成的图像与一组目标图像计算损失函数并更新网络来完成对特定物体的微调模型。 经过这样的微调,目标物体的形态和外观已经被“[SKS]”充分学习得到,即将用于和目标场景进行合成。

推理使用

在将目标物体概念和特定场景进行合成时,我们先选择特定场景的图像,将场景中的部分区域用自定义的掩码进行擦除。我们将被擦除的图像和目标物体概念一同输入微调后的模型,模型计算完毕的输出即为合成的图像。



合作交流

RealityEditor团队致力于为开发者和研究人员提供更多高级的图像应用技术,并着重推动图像合成技术的创新和发展。 这也是我们开源该项目的最初想法和目的,希望能为更广泛的用户和应用场景带来更广阔的想象空间。 因此,我们欢迎一切形式的交流、分享和参与,并期待与大家共同实现更多美好的愿景! 如果您想了解更多细节和技术资料,请访问我们的GitHub项目地址
欢迎通过微信公众号(现实编辑师)联系RealityEditor团队。