热门
最新
红包
立Flag
投票
同城
我的
发布
WavTokenizer
一种高效的音频语言建模声学离散编解码器分词器
讨论: https://huggingface.co/papers/2408.16532
语言模型已经被有效地应用于建模自然信号,例如图像、视频、语音和音频。这些模型的一个关键组成部分是编解码器分词器,它将高维的自然信号压缩成低维的离散标记。在本文中,我们介绍了WavTokenizer,它在音频领域相较于先前的最先进声学编解码器模型具有几个优势:1) 极致压缩。通过压缩量化器的层和离散编解码器的时间维度,24kHz采样率的1秒音频只需要一个包含40或75个标记的量化器。2) 改善的主观质量。尽管标记数量减少,WavTokenizer仍实现了最先进的重建质量,具有出色的UTMOS评分,并且内在包含更丰富的语义信息。具体来说,我们通过设计更广的VQ空间、扩展的上下文窗口和改进的注意力网络,以及引入强大的多尺度判别器和逆傅里叶变换结构,达到了这些效果。我们在语音、音频和音乐领域进行了广泛的重建实验。WavTokenizer在各种客观和主观指标上展示了相较于最先进模型的强大性能。我们还测试了语义信息、VQ利用率和对生成模型的适应性。综合消融研究证实了WavTokenizer中每个模块的必要性。
CSDN App 扫码分享
评论
8
- 复制链接
- 举报
下一条:
SAM2Point在零样本和可提示的方式下对任何3D进行视频分割讨论:https://huggingface.co/papers/2408.16768我们介绍了SAM2Point,这是对Segment Anything Model 2 (SAM 2) 进行零样本和可提示3D分割的初步探索。SAM2Point将任何3D数据解释为一系列多方向的视频,并利用SAM 2进行3D空间分割,而无需进一步训练或2D-3D投影。我们的框架支持各种提示类型,包括3D点、框和掩码,并且可以在各种场景中进行泛化,例如3D物体、室内场景、室外环境和原始稀疏LiDAR。在多个3D数据集(如Objaverse、S3DIS、ScanNet、Semantic3D和KITTI)上的演示展示了SAM2Point的强大泛化能力。据我们所知,我们提供了最忠实的SAM在3D中的实现,这可能为未来在可提示3D分割方面的研究提供起点。