阅读论文：Deep Spatial Transformation for Pose-Guided Person Image Generation and Animation

GFLA，姿势转换及动画，新视角生成，人脸图像动画，CVPR2020。
代码：https://github.com/RenYurui/Global-Flow-Local-Attention
问题：CNNs变换有等方差特性，限制可变形物体生成任务。STN使用一个全局仿射变换，但不能处理非刚性物体的复杂变形。注意力机制能转换超越局部区域的信息，但是输入输出间系数矩阵应该是稀疏的。基于流的操作通过为每个输出位置采样一个非常局部的源块，使其成为一个稀疏矩阵，但当在特征水平上扭曲输入时，网络很难找到合理的采样位置。原因：1）输入特征和流场在训练阶段同时变化。它们的参数更新过程受到相互约束，这意味着在没有正确的流场下输入特征无法获得合理的梯度，反之亦然。2）双线性采样方法梯度传播能力较差；还有一些其他基于流场的方法，但都不能直接解决这些问题。动画：不考虑相邻帧的相关性，从而导致时间上不一致的结果。
解决：1）采样校正度损失。约束流场到样本语义相似的区域。这种损失通过提供与输入源特性无关的额外梯度，有助于收敛。2）内容感知采样方法。避免双线性采样不好的梯度传播。3）运动提取网络，从噪声输入中提取干净的骨架；连续的GFLA模型，来建模相邻帧的相关性。
姿势引导的行人图像生成和动画：
行人图像生成整体结构：
全局流场估计器F： $w,m=F(x_{s},p_{s},p_{t})$ 。w流场，为每个目标位置分配一个源块。m遮挡mask，连续值介于0和1之间，指示是否可将流动的源块用于生成目标。
采样校正损失 $L_{c}$ ：在warp操作时，输入特征和流场的梯度传播互相约束。因此，该损失以自监督的方式约束w。计算warp的源特征和目标GT特征在VGG特征级别上的相对余弦相似度。 $\mu(*)$ 是余弦相似度。 $\mu _{max}^{l}$ 是归一化项，被用来避免因遮挡带来的偏差。它代表了 $v_{t}^{l}$ 与源特征 $v_{s}$ 映射中最相似的特征之间的相似性。
正则化项 $L_{r}$ :考虑邻接像素相关性，惩罚不是仿射变换的局部区域。
局部神经纹理渲染器G: $\widehat{x}_{t}=G(https://04lm40.github.io//post-images/1617266987627.png) 扭曲特征$ f_{attn} $，以及考虑遮挡内容引入的0-1之间的m。$ f_{out}=(1-m)f_{t}+mf_{attn}$。
损失：采样校正损失，正则化项，L1重构损失，对抗损失，感知损失，风格损失。
动画：时间一致性
运动提取网络：解决不精确运动的问题。损失：mean per-joint position error(MPJPE)
顺序GFLA模型：视频剪辑以循环方式生成：先前生成的帧用作当前生成步骤的输入。

数据集： Market-1501，DeepFashion， FashionVideo，iPER
评估指标：FID，LPIPS，JND，FID-Video，AED
其他应用：新视角合成（ShapeNet中的车和椅子）；人脸图像动画。

未来工作：由于源域图像的严重遮挡，生成错误的纹理。可能的解决方案：1）为流场增加额外的约束。2）执行多步warp操作，通过使用额外的视频数据集逐步将源图像扭曲到目标。
具体结构:

不吃萝卜

阅读论文：Deep Spatial Transformation for Pose-Guided Person Image Generation and Animation

阅读论文：Multiview image generation for vehicle reidentification