你体验到的每一帧画面都是通过扩散模子及时预测天生的
发布日期:2024-11-29 04:31:37 作者: 九游会J9国际
硅谷初创公司Etched和Decart AI联合推出了全球首款实时生成的AI游戏《Oasis》。 在这款游戏中,你体验到的每一帧画面都是通过扩散模型实时预测生成的,游戏以每秒20帧的速度持续渲染。 目前 所有的代码和模型权重都已经开源,让更多开发者能够参与其中。目前开源的是 Oasis 500M(该模型的缩小版)的权重以及用于动作条件帧生成的推理代码。
《Oasis》可以接收用户的键盘输入,并生成实时游戏玩法,包括物理、游戏规则和图形。你可以在游戏中移动、跳跃、捡起物品、打破方块等等。这里没有传统的游戏引擎,只有一个基础模型。如果以后效果更好或许可以代替UE等游戏引擎,为更多游戏开发者甚至普通人提供更丰富、更简单的游戏开发支持。
该模型由两个部分组成:一个空间自编码器和一个潜在扩散主干。两者都是基于Transformer的:自编码器使用的是ViT,主干则基于DiT。与最近一些基于动作的世界模型(如GameNGen和DIAMOND)不同,Oasis选择使用Transformer,以确保稳定、可预测的扩展性,并在Etched的Transformer ASIC Sohu上实现快速推理。
与双向模型(如Sora)不同,《Oasis》采用自回归方式生成帧,并能根据游戏输入调整每一帧。这使得用户能够实时与游戏世界互动。该模型使用了“扩散强迫”技术,通过为每个标记设定独立的去噪水平,从而支持独特的解码方案。Oasis在OpenAI收集的部分开源Minecraft视频数据上进行训练。
Oasis重点关注的一个问题是时间稳定性—确保模型输出在长时间范围内都能保持一致。在自回归模型中,错误会逐渐累积,小问题可能迅速发展成严重的画面故障。为了解决这个问题,Oasis进行了长时间上下文生成的创新。
Oasis通过动态噪声调整来解决这个问题,这意味着在推理时噪声的强度是有计划地变化的。在前期的扩散过程中,Oasis引入噪声以减少错误累积,然后在后期逐渐去除噪声,这样模型能够捕捉和保持之前帧中的高频细节,从而提高一致性。由于Oasis的模型在训练时接触过噪声,因此它能够成功处理推理时的噪声样本。
Oasis 了解复杂的游戏机制,例如建筑、照明物理、库存管理、对象理解等。
Oasis 可输出各种设置、位置和对象。这种多功能性只需进行少量额外训练,Oasis 便可生成各种新地图、游戏、功能和修改。