青云交成长记：探寻神秘宝藏之地，绽放绚丽璀璨之光（9月18日-CSDN blink-领先的开发者技术社区

Kyutai开源Moshi：突破性的全双工实时对话系统，凭借无与伦比的延迟和语音质量彻底改变了类人对话Kyutai Labs的研究人员推出了Moshi，这是一种尖端的实时语音对话系统，提供全双工通信。与传统系统强制执行的回合制结构不同，Moshi允许连续、不间断的对话，用户和系统可以同时讲话和聆听。Moshi基于一个名为Helium的基础文本语言模型，该模型包含70亿个参数，并在超过2.1万亿个公共英语数据标记上进行训练。Helium的骨干提供推理能力，而系统通过一个名为Mimi的较小音频模型得到了增强。Mimi使用神经音频编解码器编码音频标记，实时捕捉语义和音响语音特征。这种双流方法消除了严格轮流的需要，使与Moshi的互动更加自然和类人化。Moshi的测试结果显示其在多个指标上的卓越表现。在语音质量方面，即使在嘈杂或重叠的场景中，Moshi也能生成清晰、易懂的语音。系统可以维持长时间对话，上下文跨度超过五分钟，并在语音问答任务中表现异常出色。与之前通常需要一系列明确的说话者轮次的模型相比，Moshi适应各种对话动态。值得注意的是，该模型的延迟与人际互动中测得的230毫秒相当，使Moshi成为第一个能够实现接近即时响应的对话模型。这一进步使Moshi在实时全双工语音语言模型中处于最前沿。阅读我们完整的文章：

https://www.marktechpost.com/2024/09/18/kyutai-open-sources-moshi-a-breakthrough-full-duplex-real-time-dialogue-system-that-revolutionizes-human-like-conversations-with-unmatched-latency-and-speech-quality/

https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acdGitHub

https://github.com/kyutai-labs/moshi?tab=readme-ov-file@