在生成式人工智能时代，我更加清楚地意识到：被喂到嘴边的知识并-CSDN blink-领先的开发者技术社区

最新

红包

立Flag

投票

同城

发布

雷喜

2 年前

trueweixin_32352213

在生成式人工智能时代，我更加清楚地意识到：被喂到嘴边的知识并不好受。这就像消化不良一样。🤮

下一条：

扩散模型作为实时游戏引擎：@DEV AI记录的创新飞跃谷歌在这篇论文中探索了扩散模型在实时游戏引擎中的潜力。经典游戏《DOOM》成为了他们的测试场，单个TPU-v5实现了每秒20帧的渲染。他们的网站展示了对人类输入做出响应的实时帧生成的令人印象深刻的结果：https://gamengen.github.io/这篇论文设定了一个令人兴奋的早期研究方向，预计会有快速的进展。该方法涉及两个主要阶段：1️⃣ 强化学习（RL）阶段：旨在收集多样化的游戏帧。与其优先追求高分数，奖励政策鼓励探索，以便为任何用户输入生成准确的帧。2️⃣ 扩散模型训练阶段：利用收集的数据训练扩散模型。值得注意的是，他们重新利用了Stable Diffusion 1.4来完成DOOM特定任务，展示了这些模型的多功能性。→ 除了为了适应各种输入条件所做的修改，去噪网络架构基本保持不变。→ 过去的帧和键盘/鼠标输入被嵌入并用作生成当前帧的条件因素。有趣的观察✅ 过去的帧嵌入与键盘/鼠标输入并未显著提高性能。对过去帧添加噪声并在去噪过程中使用它们就已经足够。✅ 实施了防止自回归漂移的技术。✅ 在多台TPU上同时生成多个帧没有带来任何优势。✅ 每个去噪步骤在TPU-v5上大约需要10毫秒。生成DOOM只需四步，实现了每秒20帧（+10毫秒用于自动编码器）。✅ 最终结果在LPIPS和PSNR评分上表现强劲（分别为0.249和29.43）。✅ 人类评估者几乎无法区分真实和生成的游戏画面。论文承认了局限性，这也指出了未来的研究方向：✅ 强化学习阶段可能无法覆盖所有游戏场景，导致对未见过的输入可能出现错误。✅ 由于实时约束，仅使用了过去3秒（60帧）的帧进行条件处理，可能会导致不一致，如玩家看开太久时怪物消失或物品掉落。这篇引人入胜的论文可能会激发一波新的研究。虽然并非完全新颖，但其背后的简单概念产生了引人注目的结果。与大型语言模型（LLM）相比，这更容易获得，为包括我在内的许多研究人员提供了实验和贡献这一不断发展的领域的机会。