难得假期走一走-CSDN blink-领先的开发者技术社区

WhisperSpeech：一个开源的文本到语音系统牛P的是它是通过对OpenAI的Whisper语音识别模型反向工程来实现的。通过这种反转过程，WhisperSpeech能够接收文本输入，并利用修改后的Whisper模型生成听起来自然的语音输出。输出的语音在发音准确性和自然度方面都非常的优秀。WhisperSpeech 项目路线图：-声学标记提取：改进声学标记的提取过程。-语义标记提取：使用Whisper模型生成和量化语义标记。-S->A模型转换：开发将语义标记转换为声学标记的模型。-T->S模型转换：实现从文本标记到语义标记的转换。-提升EnCodec语音质量：优化EnCodec模型以提高语音合成质量。-短句推理优化：改善系统处理短句的能力。-扩展情感语音数据集：收集更大的情感语音数据。-文档化LibriLight数据集：详细记录HuggingFace上的数据集。-多语言语音收集：聚集社区资源，收集多种语言的语音。-训练多语言模型：开发支持多语言的文本到语音模型。GitHub：

https://github.com/collabora/WhisperSpeech

https://collabora.github.io/WhisperSpeech/

https://replicate.com/lucataco/whisperspeech-small