阅读论文:Taming Transformers for High-Resolution Image Synthesis

VQGAN,transformer+GAN
代码https://compvis.github.io/taming-transformers/
问题:卷积只是局部信息,transformer有长依赖关系,但没办法计算高分辨率图像。于是考虑两者结合。
模型与架构
流程:使用卷积方法来有效地学习上下文丰富的视觉部分的codebook,然后,学习它们的全局组成的模型。


判别器:PatchGAN。
学习codebook
图像x先经过编码器E,得到z^\widehat{z},然后经过逐元素的量化:

最后经过解码器G,得到生成图像。
损失:

sg[]:停止梯度操作。见VQVAE。
Learning a Perceptually Rich Codebook
为了学习丰富的codebook,以往的基于L2的重构损失现在替换为感知损失和对抗损失的加权和。

用transformer学习图像组成
量化后的zqz_{q},等价于s在codebook中的索引,即最大似然函数:

实验
能完成有条件的和没有条件的图像合成任务,因此可作为一种统一的图像合成架构。

后续:
CLIP+VQGAN,让CLIP提供文本和作为一个监督信息。