阅读论文:CVPR2021几种图像翻译

1.Spatially-Adaptive Pixelwise Networks for Fast Image Translation
ASAPNet,优势:速度快,像素级网络。
代码:https://tamarott.github.io/ASAPNet_web
首先,像素级网络的参数在空间上是有变化的,因此它们可以表示比简单的1×1卷积更广泛的函数类。其次,这些参数是由一个快速卷积网络预测的,该网络处理输入的积极的低分辨率表示。第三,我们通过连接空间坐标的正弦编码来增强输入图像,这为生成真实的新型高频图像内容提供了一种有效的感应偏差。

空间自适应像素级网络
输入:像素坐标p,和它的颜色值。像素函数用空间变化的参数ϕp\phi _{p}进行参数化,并以输入图像x为条件。f是MLP结构,ϕp\phi _{p}是MLP的空间变化的权重和偏差。从低分辨率的输入中预测按像素化的网络参数:在低分辨率图像上通过卷积网络预测参数向量ϕp\phi _{p}。最后再使用最近邻上采样方法恢复。在这个过程中,是一些卷积层,进一步降低空间维度S2=16倍(固定)。从高分辨率到低分辨率是采用双线性降采样,使分辨率减少S1倍。因此,总降采样S:=S1xS2。低分辨率图像必须在256x256以下。
使用位置编码来合成高分辨率的详细信息
我们发现将二维像素位置p=(px,py)的每个分量编码为频率高于上采样因子的正弦向量是很有用的。具体地,除了像素值xp之外,每个MLP还消耗2×2×k个额外的输入通道:(sin(2πpx/2k),cos(2πpx/2k))  k=1,...,log2(S)(sin(2\pi p_{x}/2^{k}),cos(2\pi p_{x}/2^{k})) \;k=1,...,log_{2}(S),py也类似。
损失:与SPADE类似,对抗损失(hinge),感知损失,判别器特征匹配损失。
数据集:CMP Facades,Cityscapes, NYU depth dataset。

2.Image-to-image Translation via Hierarchical Style Disentanglement
HiSD,层次风格解缠,可控多标签和多样式(多模态)。
代码:https://github.com/imlixinyang/HiSD
tags ii和attributes jj

训练阶段:
非翻译路径:第一次重构xi,j=G(E(xi,j))x_{i,j}^{'}=G(E(x_{i,j}))
自翻译路径:第二次重构xi,j=G(T(E(xi,j),si,j)),si,j=Fi(xi,j)x_{i,j}^{''}=G(T(E(x_{i,j}),s_{i,j})),s_{i,j}=F_{i}(x_{i,j})
循环翻译路径:首先生成与目标标签相关的样式代码si,j~=Mi,j~(z)s_{i,\widetilde{j}}=M_{i,\widetilde{j}}(z);然后,得到翻译后的图像xi,j~=G(T(E(xi,j),si,j~))x_{i,\widetilde{j}}=G(T(E(x_{i,j}),s_{i,\widetilde{j}}));最后,得到第三次重构的原图像xi,j=G(T(E(xi,j~),si,j))x_{i,j}^{'''}=G(T(E(x_{i,\widetilde{j}}),s_{i,j}))
目标函数:对抗损失,重构损失,样式。
对抗损失:
重构损失:
样式:
基于特征的局部翻译器σ(m)\sigma(m)是注意力掩膜,这种设计可以避免背景和照明等全局操作,可以忽略额外计算,没有正则化目标。σ(m)e+(1σ(m))f\sigma(m)\cdot e+(1-\sigma(m))\cdot f
与标签无关的有条件鉴别器:
对于不同的属性,隐式条件的不平衡现象在现实数据集中广泛存在。通过注入与标签无关的条件到判别器中来解决这个问题,即:
多样式任务,多属性任务,多标签任务的测试路径:
baseline:SDIT(带有共享风格)、StarGANv2(带有混合风格)和ELEGANT(带有特定标签的风格)。

CoMoGAN: continuous model-guided image-to-image translation
CoMoGAN,连续I2I,无监督
代码:https://github.com/cv-rits/CoMoGAN
功能实例规范化FIN
学习转换fβf_{\beta }fγf_{\gamma }的分布。
线性FIN参数:
循环FIN参数:
解缠残差块(DRB)
目标域和模型域组成:共有建模特征和私有非建模特征。
成对回归网络(ϕ\phi-Net)
为了实现真正解缠,加强真实目标域图像和建模目标域图像之间的一致性,输入成对图像到一个CNN(ϕ\phi-Net)中,回归它们的ϕ\phi差异。
训练策略
生成器
判别器
循环一致性
实验: day/dusk/night/dawn,iPhone→ DSLR,合成清晰→真实清晰,有雾

ReMix: Towards Image-to-Image Translation with Limited Data
ReMix,数据少,数据扩增。
问题:GAN训练需要大量数据,若是较少,容易过拟合。
框架:
示例:
损失:ϕ\phi是提取内容表征的函数。
基于插值的数据增强:根据输入之间的感知关系来约束输出的相对位置,且是多模态的。
e=λe1+(1λ)e2e{}'=\lambda \cdot e^{1}+(1-\lambda )\cdot e^{2}
若是e1权重更高,有:
但是对于任意其它输入,e2更相近,即:
有限数据学习GAN模型:
计算插值权重:
相对形式:
更新方式:a\overline{a}初始化为0,然后计算a(j不等于i),
更新:
算法:
与已有方法比较
已有方法估计对应的目标tt{}'。比如:
或是利用正则化,噪声注入,最近邻插值。