热门

最新

红包

立Flag

投票

同城

我的

发布
2301_81183581
2301_81183581
2 年前
true2301_81183581

请问有没有大佬知道这是怎么回事,怎么解决啊啊啊啊急急急

CSDN App 扫码分享
分享
2
1
打赏
  • 复制链接
  • 举报
下一条:
自回归语音合成无需矢量量化我们介绍了MELLE,这是一种基于连续值标记的文本到语音合成(TTS)语言建模新方法。MELLE通过自回归方式直接从文本条件生成连续的mel频谱图帧,绕过了矢量量化的需求。矢量量化原本是为音频压缩设计的,与mel频谱图相比会牺牲音质。具体来说,(i)我们应用了回归损失和提出的频谱流损失函数来代替交叉熵损失,以建模连续值标记的概率分布。(ii)我们在MELLE中引入了变分推理,以促进采样机制,从而提升输出多样性和模型的鲁棒性。实验表明,与两阶段编解码语言模型VALL-E及其变体相比,单阶段的MELLE通过避免采样离散编码的固有缺陷,缓解了鲁棒性问题,在多个指标上表现出色,最重要的是,提供了一种更简洁的范式。
立即登录