阅读论文:Unpaired Image-to-Image Translation using Adversarial Consistency Loss

ACLGAN,ECCV2020,无监督。
问题:循环一致性,1)不必要信息的保留(因为假设生成图像要包含源域图像的所有信息) 2)限制几何改变 3)像素级的约束
框架:MUNIT。生成器包括噪声编码器、图像编码器和解码器。噪声编码器只用在计算identity loss。判别器有DS,DTD^\hat D. D^\hat D是重点,用来在翻译图像中保留源域图像的重要信息。三个损失:对抗翻译损失、对抗一致性损失和identity loss。

对抗-翻译损失LadvTL_{adv}^{T}针对xT\overline{x}_{T}LadvSL_{adv}^{S}针对x^S\widehat{x}_{S}x~S\widetilde{x}_{S}。LS损失。
对抗一致性损失LaclL_{acl},这里采用D^\hat D。使生成器最小化联合分布(xSx_{S}x^S\widehat{x}_{S})和(xSx_{S}x~S\widetilde{x}_{S})之间的距离。x^S\widehat{x}_{S}的判别也就使得翻译图像保留原图像的特征。由于输入噪声向量z不同,能产生多模态输出,否则这两就一样了。因此,D^\hat D聚焦在特征级别,而不是像素级别。即:

identity loss:鼓励特征保留,提升翻译图像质量,稳定训练进程,避免模式崩溃。也保证同分布里。LidtL_{idt}包括两个,xSx_{S}xSidtx_{S}^{idt}以及xTx_{T}xTidtx_{T}^{idt}之间的L1像素级损失,其中,xSidt=Gs(xS,ESz(xS)))x_{S}^{idt}=G_{s}(x_{S},E_{S}^{z}(x_{S}))),另一个类似。一个对抗一致性损失和循环一致性损失的对比。如图:

Bounded focus mask:生成器生成四通道,RGB以及Bounded focus mask,它在0到1之间。xT=xTxm+xS(1xm)x_{T}=x_{T}'\odot x_{m}+x_{S}\odot (1-x_{m}),损失:

解决任务:去眼镜、性别转换、动漫。
限制:1)双向效果差且工作量增加。 2)不太能解决含有复杂背景的图像转换。