热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_35799294
郑瑜伊
2 年前
trueweixin_35799294

我在2022年时关于语音转语音模型的一些想法(我们本应该进一步探索的想法...)
https://docs.google.com/presentation/d/1stLLfB2BafzxzdKXmJF8mII4knCTx4Jh12l2JMgZ08U/edit

CSDN App 扫码分享
分享
评论
8
  • 复制链接
  • 举报
下一条:
gpt-4o 可以处理图像但不能处理视频,因为后者的令牌速率仍然太高(2k TPS)。Google 的 SoundStream 神经音频编解码器(https://research.google/blog/soundstream-an-end-to-end-neural-audio-codec/)展示了音频令牌化的路径,并且可能暗示了如何使用神经编解码器来解决视频问题。
立即登录