热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
评论
8
- 复制链接
- 举报
下一条:
【⚡️🚀迈克的每日文章 2024.08.20: ⚡️🚀JPEG-LM:具有规范编码表示的LLMs作为图像生成器1⃣这篇文章吸引了我的注意,因为标题中出现了“jpeg”这个词。虽然我没有在数据压缩领域工作过,但我非常喜欢这个迷人的主题。此外,这篇文章讨论了VQ-VAE模型,这在扩散模型完全占据计算机视觉中的生成性人工智能之前,曾经相当流行。2⃣好的,这都有什么关系?首先,jpeg是一种著名的图像压缩方法。这篇文章还讨论了AVC/H.264,它是一种基于与jpeg相似原理的视频压缩方法。大致来说,jpeg的工作方式如下:- 将图像分成相同大小的块,并对每个块进行离散余弦变换(DCT)——类似傅里叶变换但没有虚部。- 对每个块的DCT系数进行量化,高频系数被更大幅度地“削减”。- 使用游程编码和霍夫曼编码来压缩这些量化后的块系数。3⃣好,现在让我们回顾一下VQ-VAE。首先,VAE是一种生成模型,它学习从其潜在表示(低维)生成数据。VAE由编码器和解码器组成,前者被训练成从数据中提取低维表示,后者则从中恢复数据。VAE通过在潜在空间上施加给定的分布(通常是高斯分布)来进行训练,这允许从该分布中采样向量并通过解码器生成新数据。4⃣VQ-VAE是VAE的改进,它按顺序生成图像(从块/视觉标记),每个块由一个从学习字典中提取的向量(潜在表示)表示。换句话说,图像是逐块构建的,每个块(即代表它的字典中的向量)是在已生成的所有块的基础上采样生成的。这肯定让你想起生成令牌的语言模型。5⃣VQ-VAE在两个阶段进行训练:第一阶段训练编码器、字典和解码器(从字典中的向量恢复块),第二阶段训练一个模型,该模型预测下一个视觉令牌已生成的令牌。6⃣作者部分地结合了这些想法,并训练了一个模型,该模型能够按顺序生成jpeg或avc表示。但这里的令牌是什么呢?与语言模型类似,作者使用了BPE(字节对编码)或byte-pair encoding(稍作修改)。由此,作者构建了一个模型,该模型可以生成图像的jpeg表示,并且很容易将其转化为图像。7⃣这个想法相当有趣,但我感觉以前见过类似的想法……https://www.arxiv.org/abs/2408.08459】