腾讯推出视频到音频生成技术,具有隐藏对齐功能根据视频输入生成语义和时间上对齐的音频内容,已经成为研究人员关注的焦点,特别是在文本到视频生成取得显著突破之后。本研究旨在提供关于视频到音频生成范式的深刻见解,重点关注三个关键方面:视觉编码器、辅助嵌入和数据增强技术。从一个基于简单但出奇有效直觉的基础模型VTA-LDM开始,我们通过消融研究探索了各种视觉编码器和辅助嵌入。采用一个强调生成质量和视频音频同步对齐的综合评估管道,我们证明了我们的模型表现出最先进的视频到音频生成能力。此外,我们提供了不同数据增强方法对增强生成框架整体能力的关键见解。我们展示了从语义和时间角度生成同步音频的可能性。我们希望这些见解能成为开发更逼真和准确的视听生成模型的垫脚石。