热门
最新
红包
立Flag
投票
同城
我的
发布
阿里巴巴发布语音处理模型 FunAudioLLM
能理解和生成各种人类语音
它由主要模型构成:SenseVoice 和 CosyVoice。
SenseVoice:语音识别模型,这个模型可以识别多种语言的语音,识别说话人的情感,检测音频中的特殊事件(比如音乐、笑声等)。它可以快速而准确地转录语音内容。
CosyVoice:语音生成模式,这个模型主要生成自然且情感丰富的语音。它可以模仿不同的说话人,甚至可以用几秒钟的音频样本来克隆一个人的声音。
支持插入笑声、呼吸声、语气词等细微的语音特征,使生成的语音更加自然和生动。
可以通过文本指令精确控制说话人的身份、情感和说话风格。
可以通过仅几秒钟的音频样本进行声音克隆,无需额外训练数据。也可控制情绪情感、语速、音高等
项目地址:https://fun-audio-llm.github.io
在线演示:https://modelscope.cn/studios/iic/CosyVoice-300M
AI资讯
CSDN App 扫码分享
评论
1
打赏
- 复制链接
- 举报