我在2022年时关于语音转语音模型的一些想法（我们本应该进一-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_35799294

我在2022年时关于语音转语音模型的一些想法（我们本应该进一步探索的想法...)
https://docs.google.com/presentation/d/1stLLfB2BafzxzdKXmJF8mII4knCTx4Jh12l2JMgZ08U/edit

CSDN App 扫码分享

分享

评论

8

复制链接
举报

下一条：

gpt-4o 可以处理图像但不能处理视频，因为后者的令牌速率仍然太高（2k TPS）。Google 的 SoundStream 神经音频编解码器（https://research.google/blog/soundstream-an-end-to-end-neural-audio-codec/）展示了音频令牌化的路径，并且可能暗示了如何使用神经编解码器来解决视频问题。