请问有没有大佬知道这是怎么回事，怎么解决啊啊啊啊急急急-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

true2301_81183581

请问有没有大佬知道这是怎么回事，怎么解决啊啊啊啊急急急

CSDN App 扫码分享

分享

2

1

打赏

复制链接
举报

下一条：

自回归语音合成无需矢量量化我们介绍了MELLE，这是一种基于连续值标记的文本到语音合成（TTS）语言建模新方法。MELLE通过自回归方式直接从文本条件生成连续的mel频谱图帧，绕过了矢量量化的需求。矢量量化原本是为音频压缩设计的，与mel频谱图相比会牺牲音质。具体来说，（i）我们应用了回归损失和提出的频谱流损失函数来代替交叉熵损失，以建模连续值标记的概率分布。（ii）我们在MELLE中引入了变分推理，以促进采样机制，从而提升输出多样性和模型的鲁棒性。实验表明，与两阶段编解码语言模型VALL-E及其变体相比，单阶段的MELLE通过避免采样离散编码的固有缺陷，缓解了鲁棒性问题，在多个指标上表现出色，最重要的是，提供了一种更简洁的范式。