热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_35799294
郑瑜伊
2 年前
trueweixin_35799294

gpt-4o 可以处理图像但不能处理视频,因为后者的令牌速率仍然太高(2k TPS)。Google 的 SoundStream 神经音频编解码器(https://research.google/blog/soundstream-an-end-to-end-neural-audio-codec/)展示了音频令牌化的路径,并且可能暗示了如何使用神经编解码器来解决视频问题。

CSDN App 扫码分享
分享
评论
12
  • 复制链接
  • 举报
下一条:
视觉输入由于图像编码器处理的原因,在gpt-4o上的处理速度仍然较慢,TTFT(从提示到首令牌的时间)尤其缓慢。不过,输出的TPS(每秒生成的令牌数)几乎没有受到影响,这并不意外。中位TTFT:1.66秒令牌数:100(80令牌/秒)总时间:2.46秒
立即登录