gpt-4o 可以处理图像但不能处理视频,因为后者的令牌速率仍然太高(2k TPS)。Google 的 SoundStream 神经音频编解码器(https://research.google/blog/soundstream-an-end-to-end-neural-audio-codec/)展示了音频令牌化的路径,并且可能暗示了如何使用神经编解码器来解决视频问题。