阅读论文：Taming Transformers for High-Resolution Image Synthesis

VQGAN，transformer+GAN
代码：https://compvis.github.io/taming-transformers/
问题：卷积只是局部信息，transformer有长依赖关系，但没办法计算高分辨率图像。于是考虑两者结合。
模型与架构：
流程：使用卷积方法来有效地学习上下文丰富的视觉部分的codebook，然后，学习它们的全局组成的模型。

判别器：PatchGAN。
学习codebook：
图像x先经过编码器E，得到 $\widehat{z}$ ，然后经过逐元素的量化：

最后经过解码器G，得到生成图像。
损失：

sg[]:停止梯度操作。见VQVAE。
Learning a Perceptually Rich Codebook：
为了学习丰富的codebook，以往的基于L2的重构损失现在替换为感知损失和对抗损失的加权和。

用transformer学习图像组成：
量化后的 $z_{q}$ ，等价于s在codebook中的索引，即最大似然函数：

实验：
能完成有条件的和没有条件的图像合成任务，因此可作为一种统一的图像合成架构。

后续：
CLIP+VQGAN，让CLIP提供文本和作为一个监督信息。

不吃萝卜

阅读论文：Taming Transformers for High-Resolution Image Synthesis

阅读论文：Geometry-Free View Synthesis: Transformers and no 3D Priors