Sonic：基于状态空间模型的低延迟实时推理语音生成模型由C-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

程序员的店小二

2 年前

truem0_46163918

Sonic：基于状态空间模型的低延迟实时推理语音生成模型

由Cartesia AI开发，基于他们自研的状态空间模型

• 延迟仅为135毫秒，确保实时响应

• 超逼真语音：生成富有情感和表达力的真人语音

• 只需10秒的录音即可匹配语调、抑扬顿挫和声线特征。

• 可控参数：用户可以调整音高、语速、情感、发音和速度，实现个性化语音设计。

• 高吞吐量：使用首创的状态空间模型推理栈，支持高并发和低成本推理。

演示视频为Sonic生成的语音，视频来自@aipaperspodcast

官方介绍：https://cartesia.ai/blog/sonic

AI资讯

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

埃隆显然有一篇被谷歌学术收录的真正技术论文：《一种集成了数千个通道的脑机接口平台》发表于2019年的《医学互联网研究杂志》。作者？“埃隆·马斯克和Neuralink”我相信那些隐藏在这个集体名字背后的科学家们对此一定非常高兴。我只希望他们不会在痛苦和被遗忘中死去。https://www.jmir.org/2019/10/e16194