Harpreet:训练数据的质量和多样性对于扩散模型的效果至关重要。您能否讨论一下您的数据收集、清洗和整理方法,以确保数据准备充分并具有代表性?您如何解决确保公平性和最小化数据集偏见方面的挑战?Lukas:1. 数据收集和清洗:• 真实视频捕捉:我们捕捉各种物体和场景的真实视频。这提供了反映现实世界复杂性的丰富数据源。• 图像提取和过滤:我们从视频中提取单帧图像,并进行过滤过程以确保高质量并去除模糊或其他不可用的帧。这一步对于创建干净可靠的数据集至关重要。2. 针对特定控制机制的数据整理:• 3D姿态控制:我们旨在实现对生成物体3D姿态的控制。为此,我们将不同物体的视频对齐到一个共享的世界空间。这使我们能够在模型的训练数据中一致地操纵物体的姿态。• 基于文本的控制:我们希望用户能够通过文本提示控制生成的输出。为此,我们使用预训练的图像描述模型为图像加标签。这提供了图像内容的文本表示,可以用于基于文本的控制。为了进一步确保输出的多样性,我们为每幅图像生成多个描述,并在训练期间随机抽取这些描述。3. 减少偏见:• 姿态控制公平性:一个关键的挑战是确保我们的姿态控制机制的公平性。我们旨在避免训练数据中某些姿态过度代表的偏见。为了解决这个问题,我们实施了一种采样策略,确保每个姿态方向被等频率地采样。这有助于防止模型学习到物体姿态的偏见表示。