热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
2
2
打赏
- 复制链接
- 举报
下一条:
Kyutai开源Moshi:突破性的全双工实时对话系统,凭借无与伦比的延迟和语音质量彻底改变了类人对话Kyutai Labs的研究人员推出了Moshi,这是一种尖端的实时语音对话系统,提供全双工通信。与传统系统强制执行的回合制结构不同,Moshi允许连续、不间断的对话,用户和系统可以同时讲话和聆听。Moshi基于一个名为Helium的基础文本语言模型,该模型包含70亿个参数,并在超过2.1万亿个公共英语数据标记上进行训练。Helium的骨干提供推理能力,而系统通过一个名为Mimi的较小音频模型得到了增强。Mimi使用神经音频编解码器编码音频标记,实时捕捉语义和音响语音特征。这种双流方法消除了严格轮流的需要,使与Moshi的互动更加自然和类人化。Moshi的测试结果显示其在多个指标上的卓越表现。在语音质量方面,即使在嘈杂或重叠的场景中,Moshi也能生成清晰、易懂的语音。系统可以维持长时间对话,上下文跨度超过五分钟,并在语音问答任务中表现异常出色。与之前通常需要一系列明确的说话者轮次的模型相比,Moshi适应各种对话动态。值得注意的是,该模型的延迟与人际互动中测得的230毫秒相当,使Moshi成为第一个能够实现接近即时响应的对话模型。这一进步使Moshi在实时全双工语音语言模型中处于最前沿。阅读我们完整的文章:https://www.marktechpost.com/2024/09/18/kyutai-open-sources-moshi-a-breakthrough-full-duplex-real-time-dialogue-system-that-revolutionizes-human-like-conversations-with-unmatched-latency-and-speech-quality/模型在HF上:https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acdGitHub页面:https://github.com/kyutai-labs/moshi?tab=readme-ov-file@杨勃 (阿北)