每帧都是AI实时生成的,全球首款AI游戏问世了!

欢迎来到 Transformer 的世界。

两个月前,谷歌的 GameNGen颠覆了我们对 AI 游戏的认知。他们实现了历史性的突破,从此不再需要游戏引擎,AI 能基于扩散模型,为玩家生成实时可玩的游戏。GameNGen 的出现,意味着开发者不必再手动编程,价值 2000 亿美元的全球游戏产业,都将被彻底颠覆。无论什么类型的游戏,都可以想你所想、懂你所懂,幻化出只属于你的独享世界。

这样的论调瞬间铺满了 AI 圈。当时,游戏界最热的除了《黑神话:悟空》,就是米哈游创始人蔡浩宇的犀利发言:「AI 颠覆游戏开发,建议大部分游戏开发者赶快转行。」

没想到,只过了两个月,新的里程碑就来了,AI 实时生成游戏不再只是「只可远观不可亵玩」的 demo,直接就能上手体验。昨天,两家初创公司 Etched 和 Decart AI 联手,带来了世界上首个实时生成的 AI 游戏 Oasis,你在其中体验到的每一帧都来自扩散模型的实时预测,游戏画面持续以20 帧每秒的速度实时渲染,零延迟。更重要的是,所有代码和模型权重均已开源。

试玩链接: https://oasis.decart.ai/overview

项目链接: https://github.com/etched-ai/open-oasis

模型权重: https://huggingface.co/Etched/oasis-500m/blob/main/media/thumb.png

AI 能够精确模拟出高质量的图形和复杂的实时交互,这一切的到来快得令人措手不及,看到的网友都有点错愕:难道我们没穿越到《黑客帝国》中的矩阵世界吗?

AI 领域的专家们也都在关注 Oasis。FlashAttention 作者,普林斯顿助理教授 Tri Dao 等诸多大佬纷纷点赞:「很快模型推理就会变得非常便宜,我们的许多娱乐内容都将由人工智能生成」。

不过既然是游戏,我们就要以游戏的要求来对它进行评价。

一流的意义,摸不着头脑的体验

话不多说,我们立马上手试玩了一下。果然,重要的事情起码要说三遍 —— 这是世界上第一款 AI 实时生成的游戏。

这刚进入界面,就收到了 Oasis 的提醒:「请注意,你做出的每一步都将决定整个世界的走向」。这可一下子把期待值拉满了。游戏的内容能够实时自我塑造,这意味着这个世界里的一举一动都完全以你为主,与你有关,玩家不需要再遵循固定的模式和任务,因为每一秒都是 AI 为你量身定制的惊喜。

从海岸、村庄、森林、沙漠等地形中选择一个,就能正式开启体验了。(由于 Oasis 太过火爆,想真玩上还要排一会儿队,算力有限,每位使用者限时体验五分钟。)

终于挤进去之后,Oasis 这个游戏却让人有点看不懂了,这不就是《我的世界》吗?比《幻兽帕鲁》还有既视感。「这样做真的没有版权问题吗?」很多试玩的人也有同感:「告诉 AI:参考《我的世界》做一个游戏,把 UI 改改就行。」AI:下载《我的世界》,启动!

不过照《我的世界》的玩法继续搭房子,Oasis 帮忙生成出来的牛棚倒是可圈可点。毕竟,这次驱动游戏的不是设定好的逻辑和程序,只有一个 AI 模型。把栅栏放在另一个栅栏旁边的动作,看起来只需要一步,但模型其实悄咪咪地完成了识别你点击的是栅栏,它要和其他物体放在一起应该如何排列,这个画面要如何呈现等等的复杂转化。

不过相比它的预测能力,记忆应该是 Oasis 的短板,比如画面左边原来有座山,但是再把视线转回去,就会发现山已经消失了。 我那么大一座山呢?

而像 Sora,或者同样都旨在模拟物理世界的其他视频模型,在把「镜头」平移回来之后就没有这种明显的记忆损失。对此,有网友猜测是牺牲了参数数量来换取实时的推理速度。

虽然官方声称游戏的操作是0 延迟的,但是使用鼠标操控起来有点困难,就像有一股神秘的力量在影响鼠标和电脑之间的连接。想要点击背包中某一格的物品,总会识别到其他格中。并且游戏中的文字,有一种梦核的意味,好像有点轮廓,却怎么也看不清楚。

这位网友的形容很贴切:「开始的时候,我以为是《我的世界》,后来亲自尝试过之后,这是吃了菌子再玩的《我的世界》。」

Oasis 的技术:Transformer 中的宇宙

作为 Oasis 的技术支持,Etched 和 Decart AI 都发布了技术博客,其中 Decart AI 主要负责训练模型,Etched 提供算力。架构模型由两部分组成:一个空间自编码器和一个潜在扩散模型结构。这两部分都基于 Transformer 模型:自编码器基于 ViT,而主干则基于 DiT。

与最近的基于动作的世界模型如 GameNGen 和 DIAMOND 不同,Oasis 的研究团队选择了 Transformer 来确保稳定、可预测的扩展。与 Sora 这样的双向模型不同,Oasis 是自回归地生成帧的,它能够根据游戏输入调节每一帧,这构成了 AI 生成的游戏实时与世界互动的基础。

该模型采用了 Diffusion Forcing 训练方法,能够独立对每个 token 进行去噪。它通过在空间注意力层之间加入额外的时间注意力层,来利用前几帧的上下文。此外,扩散过程在 ViT VAE 生成的潜在维度中进行,这一维度不仅压缩了图像大小,还使得扩散能够专注于更高层次的特征。

时间的稳定性是 DecartAI 关注的问题 —— 需要确保模型的输出在长时间跨度内是有意义的。在自回归模型中,错误会累积,小瑕疵很快就会累积成错误的帧。为了解决这个问题,该团队在长上下文

结论

Oasis 的出现,标志着 AI 游戏正式进入了一个新的时代。虽然目前它还存在一些不足,比如记忆问题和操控体验,但它展现出的潜力是巨大的。随着技术的不断发展,我们有理由相信,未来 AI 游戏将会更加完善,为玩家带来更加沉浸式的体验。

参考文献

免责声明: 本文仅供参考,不构成任何投资建议。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注