热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
1
点赞
打赏
- 复制链接
- 举报
下一条:
谷歌推出零样本跨语言语音转换用于TTS讨论:https://huggingface.co/papers/2409.13910在这篇论文中,我们介绍了一个零样本语音转换(VT)模块,该模块可以无缝集成到多语言文本到语音(TTS)系统中,以跨语言转换个人的语音。我们提出的VT模块包括一个处理参考语音的说话人编码器、一个瓶颈层和残差适配器,这些组件连接到现有的TTS层。我们比较了这些组件的各种配置的性能,并报告了跨语言的平均意见得分(MOS)和说话人相似性。使用每个说话人的单个英语参考语音,我们在九种目标语言中实现了平均73%的语音转换相似性得分。声学特征在个体身份的构建和感知中起着重要作用。由于身体或神经系统状况导致的声音丧失,会给人带来深刻的失落感,影响个人核心身份。作为一个案例研究,我们展示了我们的方法不仅可以转换典型语音,还可以恢复有构音障碍个体的声音,即使只有非典型语音样本可用——这对那些从未有过典型语音或未存储过语音的人来说是一个宝贵的工具。