论文页面：https://huggingface.co/pa-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

truetechsavvyak

论文页面：https://huggingface.co/papers/2407.08701

CSDN App 扫码分享

分享

评论

10

复制链接
举报

下一条：

Live2Diff通过视频扩散模型中的单向注意实现直播翻译大型语言模型在生成流媒体数据（如文本和音频）方面表现出了显著的效果，这得益于其时间上单向的注意机制，该机制能够建模当前标记与之前标记之间的相关性。然而，视频流媒体处理仍然探索较少，尽管对实时视频处理的需求日益增长。最先进的视频扩散模型利用双向时间注意机制来建模当前帧与所有周围帧（包括未来帧）之间的相关性，这使得它们无法处理流媒体视频。为了解决这个问题，我们提出了Live2Diff，这是首个尝试设计具有单向时间注意的视频扩散模型，专门针对实时视频翻译。与之前的工作相比，我们的方法通过将当前帧与其前几帧和一些初始预热帧相关联，而不包含任何未来帧，从而确保了时间一致性和平滑性。此外，我们采用了一种高效的去噪方案，结合KV缓存机制和流水线，以促进实时视频翻译在交互帧率下进行。大量实验表明，所提出的注意机制和流水线的有效性，在时间平滑性和/或效率方面优于以往的方法。