英伟达开源Cosmos:引领AI视频生成新纪元,速度提升12倍
引言: 生成式AI的浪潮席卷全球,图像和视频生成技术日新月异。然而,鲜为人知的是,一个名为“tokenizer”的关键组件正悄然推动着这一领域的飞速发展。近日,英伟达开源了一款名为Cosmos的SOTA tokenizer,其速度提升了惊人的12倍,并支持图像和视频的无缝处理,有望彻底改变视频生成、机器人等领域的AI应用。这不仅是一次技术突破,更是一场关于AI底层架构的深刻变革。
主体:
1. Tokenizer:AI图像视频生成领域的“幕后英雄”
在讨论图像和视频生成模型时,人们往往关注的是模型架构,例如DiT。然而,正如谷歌等机构的研究者在论文“Language model Beats diffusion – tokenizer is key to visual generation”中所揭示的,tokenizer的重要性同样不容忽视。一个高效的tokenizer能够将连续、高维的视觉数据转化为模型可处理的紧凑语义token,显著提升模型的性能。 蒋路博士在采访中也强调了tokenizer在该领域长期被低估的事实,并呼吁业界加大投入。 tokenizer的关键作用在于建立token间的互联,让模型明确“下一步做什么”,从而充分发挥其潜力。 它就像翻译官,将视觉信息翻译成AI能够理解的语言。
2. 现有技术的局限性:速度慢,质量差
目前,虽然市面上存在许多开源的图像和视频tokenizer,但它们常常存在以下问题:生成的token质量不高,导致模型输出图像失真、视频不稳定;token化过程低效,导致编解码速度慢,训练和推理时间长,影响开发效率和用户体验。
3. Cosmos:英伟达的突破性解决方案
为了解决这些问题,英伟达推出了Cosmos tokenizer。这是一个全面的连续和离散图像及视频tokenizer,兼顾高压缩率和高质量重建,速度是现有方法的12倍。其核心优势在于:
- 高效的架构: Cosmos基于轻量级时间因果架构,利用因果时间卷积和注意力层,高效处理时空信息并保持视频帧顺序。
- 统一的设计: 支持图像和视频的无缝token化,无需针对不同数据类型进行调整。
- 高性能: 在高分辨率图像和长视频上进行训练,涵盖各种宽高比,并能处理比训练时间更长的数据。
- 广泛的适用性: 支持各种图像和视频类型,并提供灵活的压缩率,以适应不同的计算限制。
4. 性能评估和应用前景
英伟达研究人员在标准数据集(MS-COCO 2017、ImageNet-1K、FFHQ、CelebA-HQ和DAVIS)以及他们新策划的TokenBench数据集(涵盖机器人、驾驶和体育等类别)上对Cosmos进行了评估。结果显示,Cosmos在DAVIS视频上的PSNR提升了4dB,token化速度提升了12倍,可在配备80GB内存的英伟达A100 GPU上编码长达8秒的1080p和10秒的720p视频。 1x机器人公司AI副总裁Eric Jang的积极评价也印证了Cosmos的优越性能。
结论:
Cosmos tokenizer的开源,标志着AI图像和视频生成领域迈入了新的纪元。其卓越的性能和广泛的适用性,将极大地推动视频生成、机器人等领域的AI应用发展。 未来,我们有理由期待基于Cosmos的更多创新应用涌现,并进一步提升AI的视觉理解和生成能力。 Cosmos的出现,也为其他AI领域提供了宝贵的经验,即关注底层架构的优化,往往能够带来意想不到的突破。
参考文献:
- Language model Beats diffusion – tokenizer is key to visual generation
- NVIDIA Cosmos Tokenizer ResearchPaper
- NVIDIA Cosmos Tokenizer HuggingFace
- NVIDIA Cosmos Tokenizer GitHub
- TokenBench GitHub
(注:由于无法访问原始文章中提到的论文链接,此处仅提供了可访问的链接。 如果能提供论文链接,请替换以上链接。)
Views: 0