MaskGCT:一个新的零样本文本到语音(TTS)模型 支持跨语言翻译配音、语音克隆、语言转换、情感控制等与现有的TTS系统相比,MaskGCT 在语音的自然度、相似度和可理解性方面表现更佳。支持对语音生成的多样性和情感控制以及对通过文本对音频内容进行实时可控编辑。同时模型大幅降低了推理时间,适合实时应用。