热门

最新

红包

立Flag

投票

同城

我的

发布
m0_46163918
程序员的店小二
1 年前
truem0_46163918

阿里巴巴发布语音处理模型 FunAudioLLM

能理解和生成各种人类语音

它由主要模型构成:SenseVoice 和 CosyVoice。

SenseVoice:语音识别模型,这个模型可以识别多种语言的语音,识别说话人的情感,检测音频中的特殊事件(比如音乐、笑声等)。它可以快速而准确地转录语音内容。

CosyVoice:语音生成模式,这个模型主要生成自然且情感丰富的语音。它可以模仿不同的说话人,甚至可以用几秒钟的音频样本来克隆一个人的声音。

支持插入笑声、呼吸声、语气词等细微的语音特征,使生成的语音更加自然和生动。

可以通过文本指令精确控制说话人的身份、情感和说话风格。

可以通过仅几秒钟的音频样本进行声音克隆,无需额外训练数据。也可控制情绪情感、语速、音高等

项目地址:
https://fun-audio-llm.github.io
在线演示:https://modelscope.cn/studios/iic/CosyVoice-300M

AI资讯
CSDN App 扫码分享
分享
评论
1
打赏
  • 复制链接
  • 举报
下一条:
5月25日,我们在考文垂的Holyhead Road(一条自动驾驶车辆测试街道)进行了感知漫步,同行的有出色的Talking Birds @小珂and小洋 @王高乒 @李霄麟。阅读并查看我们当天创建的街道图 🌻🚙🚙🚙🚦🎇🌳https://tinyurl.com/3jud8523
立即登录