@杨勃 (阿北) 今天展示的端到端音频模型是一个很大的突破,很多人在现场却没有注意到。大多不相关的事实是:- 它们在OpenAI ChatGPT-4o之后几周出现- 展示的音质和语音时序方面不如4o相关的事实是:- 模型训练流程和模型架构简单且高度可扩展,一个只有8+人的小团队如Kyutai在4个月内建成。合成数据在这里是一个巨大的推动力- 专注于本地设备:Moshi很快将无处不在。前沿模型开发者几乎没有动力让你在本地运行较小的模型(每个token的价格…)但像Kyutai这样的非营利组织有着非常不同的动机。Moshi的演示已经上线,而OpenAI 4o的演示还在搁置中。- 在保持Llama 8B或以上质量的答案的情况下,将延迟降至300毫秒以下是互动性的关键推动力,这是革命性的。当模型在你提问之前就回答你的问题,或者你打断模型说话时它立即作出反应,这种感觉相当疯狂。模型中的预测编码,能够即时更新你即将说的话的模型…基本上,他们掌握了基本原理。这项互动语音技术已经出现,并且很快将成为一种显而易见的商品。