阅读论文：CVPR2021几种图像翻译

1.Spatially-Adaptive Pixelwise Networks for Fast Image Translation
ASAPNet，优势：速度快，像素级网络。
代码：https://tamarott.github.io/ASAPNet_web
首先，像素级网络的参数在空间上是有变化的，因此它们可以表示比简单的1×1卷积更广泛的函数类。其次，这些参数是由一个快速卷积网络预测的，该网络处理输入的积极的低分辨率表示。第三，我们通过连接空间坐标的正弦编码来增强输入图像，这为生成真实的新型高频图像内容提供了一种有效的感应偏差。

空间自适应像素级网络：
输入：像素坐标p，和它的颜色值。像素函数用空间变化的参数 $\phi _{p}$ 进行参数化，并以输入图像x为条件。f是MLP结构， $\phi _{p}$ 是MLP的空间变化的权重和偏差。从低分辨率的输入中预测按像素化的网络参数：在低分辨率图像上通过卷积网络预测参数向量 $\phi _{p}$ 。最后再使用最近邻上采样方法恢复。在这个过程中，是一些卷积层，进一步降低空间维度S2=16倍（固定）。从高分辨率到低分辨率是采用双线性降采样，使分辨率减少S1倍。因此，总降采样S:=S1xS2。低分辨率图像必须在256x256以下。
使用位置编码来合成高分辨率的详细信息：
我们发现将二维像素位置p=(px，py)的每个分量编码为频率高于上采样因子的正弦向量是很有用的。具体地，除了像素值xp之外，每个MLP还消耗2×2×k个额外的输入通道： $(sin(2\pi p_{x}/2^{k}),cos(2\pi p_{x}/2^{k})) \;k=1,...,log_{2}(S)$ ，py也类似。
损失：与SPADE类似，对抗损失（hinge），感知损失，判别器特征匹配损失。
数据集：CMP Facades，Cityscapes， NYU depth dataset。

2.Image-to-image Translation via Hierarchical Style Disentanglement：
HiSD，层次风格解缠，可控多标签和多样式(多模态)。
代码：https://github.com/imlixinyang/HiSD
tags $i$ 和attributes $j$ 。

训练阶段:
非翻译路径：第一次重构 $x_{i,j}^{'}=G(E(x_{i,j}))$ 。
自翻译路径：第二次重构 $x_{i,j}^{''}=G(T(E(x_{i,j}),s_{i,j})),s_{i,j}=F_{i}(x_{i,j})$ 。
循环翻译路径：首先生成与目标标签相关的样式代码 $s_{i,\widetilde{j}}=M_{i,\widetilde{j}}(z)$ ；然后，得到翻译后的图像 $x_{i,\widetilde{j}}=G(T(E(x_{i,j}),s_{i,\widetilde{j}}))$ ；最后，得到第三次重构的原图像 $x_{i,j}^{'''}=G(T(E(x_{i,\widetilde{j}}),s_{i,j}))$ 。
目标函数：对抗损失，重构损失，样式。
对抗损失：
重构损失：
样式：
基于特征的局部翻译器： $\sigma(m)$ 是注意力掩膜，这种设计可以避免背景和照明等全局操作，可以忽略额外计算，没有正则化目标。 $\sigma(m)\cdot e+(1-\sigma(m))\cdot f$
与标签无关的有条件鉴别器:
对于不同的属性，隐式条件的不平衡现象在现实数据集中广泛存在。通过注入与标签无关的条件到判别器中来解决这个问题，即：
多样式任务，多属性任务，多标签任务的测试路径：
baseline：SDIT（带有共享风格）、StarGANv2（带有混合风格)和ELEGANT(带有特定标签的风格）。

CoMoGAN: continuous model-guided image-to-image translation：
CoMoGAN，连续I2I，无监督
代码：https://github.com/cv-rits/CoMoGAN
功能实例规范化FIN：
学习转换 $f_{\beta }$ 和 $f_{\gamma }$ 的分布。
线性FIN参数：
循环FIN参数：
解缠残差块(DRB)：
目标域和模型域组成：共有建模特征和私有非建模特征。
成对回归网络（ $\phi$ -Net）：
为了实现真正解缠，加强真实目标域图像和建模目标域图像之间的一致性，输入成对图像到一个CNN（ $\phi$ -Net）中，回归它们的 $\phi$ 差异。
训练策略：
生成器
判别器
循环一致性
实验： day/dusk/night/dawn，iPhone→ DSLR，合成清晰→真实清晰，有雾

ReMix: Towards Image-to-Image Translation with Limited Data：
ReMix，数据少，数据扩增。
问题：GAN训练需要大量数据，若是较少，容易过拟合。
框架：
示例：
损失： $\phi$ 是提取内容表征的函数。
基于插值的数据增强：根据输入之间的感知关系来约束输出的相对位置，且是多模态的。
$e{}'=\lambda \cdot e^{1}+(1-\lambda )\cdot e^{2}$
若是e1权重更高，有：
但是对于任意其它输入，e2更相近，即：
有限数据学习GAN模型:
计算插值权重：
相对形式：
更新方式： $\overline{a}$ 初始化为0，然后计算a（j不等于i），
更新：
算法：
与已有方法比较：
已有方法估计对应的目标 $t{}'$ 。比如：
或是利用正则化，噪声注入，最近邻插值。

不吃萝卜

阅读论文：CVPR2021几种图像翻译

阅读论文：Layout-Guided Novel View Synthesis from a Single Indoor Panorama