ControlNeXt强大且高效的图像和视频生成控制讨论:h-CSDN blink-领先的开发者技术社区

最新

红包

立Flag

投票

同城

发布

_akhaliq

2 年前

truetechsavvyak

ControlNeXt

强大且高效的图像和视频生成控制

讨论: https://huggingface.co/papers/2408.06070

扩散模型在图像和视频生成方面展示了出色且稳健的能力。为了在生成结果上实现更大的控制，研究人员引入了额外的架构，如ControlNet、Adapters和ReferenceNet，以整合条件控制。然而，当前的可控生成方法通常需要大量的额外计算资源，特别是在视频生成方面，并且在训练时面临挑战或者控制效果较弱。在本文中，我们提出了ControlNeXt：一种强大且高效的可控图像和视频生成方法。我们首先设计了一种更加简洁且高效的架构，用最小的额外成本取代繁重的额外分支，与基础模型相比，这种简洁的结构也使我们的方法能够无缝集成其他LoRA权重，从而无需额外训练即可实现风格变更。至于训练，我们相比替代方法减少了高达90%的可学习参数。此外，我们提出另一种方法，称为Cross Normalization (CN)，作为Zero-Convolution的替代，以实现快速且稳定的训练收敛。我们在图像和视频的不同基础模型上进行了各种实验，展示了我们方法的稳健性。

下一条：

Sakana AI 宣布 The AI Scientist迈向全自动开放式科学发现讨论：https://huggingface.co/papers/2408.06292人工通用智能的一个重大挑战是开发能够进行科学研究和发现新知识的代理。虽然前沿模型已经被用作人类科学家的辅助工具，例如头脑风暴、编写代码或预测任务，但它们仍然只完成了科学过程的一小部分。本文提出了第一个全自动科学发现的综合框架，使前沿大型语言模型能够独立进行研究并传达其发现。我们介绍了 The AI Scientist，它能够生成新的研究想法、编写代码、执行实验、可视化结果、通过撰写完整的科学论文来描述其发现，然后运行模拟评审过程进行评估。原则上，这一过程可以重复进行，以开放式的方式迭代发展想法，类似于人类科学社区的运作。我们通过将其应用于机器学习的三个不同子领域展示了其多功能性：扩散建模、基于变压器的语言建模和学习动态。每个想法都被实现并发展成一篇完整的论文，成本不到 $15 美元。为了评估生成的论文，我们设计并验证了一种自动化审稿人，其在评估论文分数方面表现出接近人类的性能。The AI Scientist 可以生成超过顶级机器学习会议接受门槛的论文，这由我们的自动化审稿人判断。这种方法标志着机器学习科学发现新时代的开始：将 AI 代理的变革性优势带入 AI 本身的整个研究过程，并使我们更接近一个可以在世界最具挑战性的问题上释放无尽且经济实惠的创造力和创新的世界。