阅读论文:Deep Spatial Transformation for Pose-Guided Person Image Generation and Animation

GFLA,姿势转换及动画,新视角生成,人脸图像动画,CVPR2020。
代码https://github.com/RenYurui/Global-Flow-Local-Attention
问题CNNs变换有等方差特性,限制可变形物体生成任务。STN使用一个全局仿射变换,但不能处理非刚性物体的复杂变形。注意力机制能转换超越局部区域的信息,但是输入输出间系数矩阵应该是稀疏的。基于流的操作通过为每个输出位置采样一个非常局部的源块,使其成为一个稀疏矩阵,但当在特征水平上扭曲输入时,网络很难找到合理的采样位置。原因:1)输入特征和流场在训练阶段同时变化。它们的参数更新过程受到相互约束,这意味着在没有正确的流场下输入特征无法获得合理的梯度,反之亦然。2)双线性采样方法梯度传播能力较差;还有一些其他基于流场的方法,但都不能直接解决这些问题。动画:不考虑相邻帧的相关性,从而导致时间上不一致的结果。
解决:1)采样校正度损失。约束流场到样本语义相似的区域。这种损失通过提供与输入源特性无关的额外梯度,有助于收敛。2)内容感知采样方法。避免双线性采样不好的梯度传播。3)运动提取网络,从噪声输入中提取干净的骨架;连续的GFLA模型,来建模相邻帧的相关性。
姿势引导的行人图像生成和动画
行人图像生成整体结构
全局流场估计器Fw,m=F(xs,ps,pt)w,m=F(x_{s},p_{s},p_{t})。w流场,为每个目标位置分配一个源块。m遮挡mask,连续值介于0和1之间,指示是否可将流动的源块用于生成目标。
采样校正损失LcL_{c}:在warp操作时,输入特征和流场的梯度传播互相约束。因此,该损失以自监督的方式约束w。计算warp的源特征和目标GT特征在VGG特征级别上的相对余弦相似度。 μ()\mu(*)是余弦相似度。μmaxl\mu _{max}^{l}是归一化项,被用来避免因遮挡带来的偏差。它代表了vtlv_{t}^{l}与源特征vsv_{s}映射中最相似的特征之间的相似性。
正则化项LrL_{r}:考虑邻接像素相关性,惩罚不是仿射变换的局部区域。
局部神经纹理渲染器G:x^t=G(https://04lm40.github.io//postimages/1617266987627.png)\widehat{x}_{t}=G(https://04lm40.github.io//post-images/1617266987627.png) 扭曲特征f_{attn}01m,以及考虑遮挡内容引入的0-1之间的m。f_{out}=(1-m)f_{t}+mf_{attn}$。
损失:采样校正损失,正则化项,L1重构损失,对抗损失,感知损失,风格损失。
动画:时间一致性
运动提取网络:解决不精确运动的问题。损失:mean per-joint position error(MPJPE)
顺序GFLA模型:视频剪辑以循环方式生成:先前生成的帧用作当前生成步骤的输入。

数据集: Market-1501,DeepFashion, FashionVideo,iPER
评估指标:FID,LPIPS,JND,FID-Video,AED
其他应用:新视角合成(ShapeNet中的车和椅子);人脸图像动画。

未来工作:由于源域图像的严重遮挡,生成错误的纹理。可能的解决方案:1)为流场增加额外的约束。2)执行多步warp操作,通过使用额外的视频数据集逐步将源图像扭曲到目标。
具体结构: