关于文本到语音生成的论文,开发了一个分解的语音自编码器(韵律、内容、细节、身份),并执行了序贯离散扩散(首先是时长,然后是韵律,接着是内容等)。https://arxiv.org/abs/2403.03100