阿里巴巴发布语音处理模型FunAudioLLM能理解和生成各-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

程序员的店小二

2 年前

truem0_46163918

阿里巴巴发布语音处理模型 FunAudioLLM

能理解和生成各种人类语音

它由主要模型构成：SenseVoice 和 CosyVoice。

SenseVoice：语音识别模型，这个模型可以识别多种语言的语音，识别说话人的情感，检测音频中的特殊事件（比如音乐、笑声等）。它可以快速而准确地转录语音内容。

CosyVoice：语音生成模式，这个模型主要生成自然且情感丰富的语音。它可以模仿不同的说话人，甚至可以用几秒钟的音频样本来克隆一个人的声音。

支持插入笑声、呼吸声、语气词等细微的语音特征，使生成的语音更加自然和生动。

可以通过文本指令精确控制说话人的身份、情感和说话风格。

可以通过仅几秒钟的音频样本进行声音克隆，无需额外训练数据。也可控制情绪情感、语速、音高等

项目地址：https://fun-audio-llm.github.io
在线演示：https://modelscope.cn/studios/iic/CosyVoice-300M

AI资讯

CSDN App 扫码分享

分享

评论

1

打赏

复制链接
举报

下一条：

5月25日，我们在考文垂的Holyhead Road（一条自动驾驶车辆测试街道）进行了感知漫步，同行的有出色的Talking Birds @小珂and小洋 @王高乒 @李霄麟。阅读并查看我们当天创建的街道图 🌻🚙🚙🚙🚦🎇🌳https://tinyurl.com/3jud8523