英伟达开源神器：AI图像视频生成利器

英伟达开源Cosmos：引领AI视频生成新纪元，速度提升12倍

引言： 生成式AI的浪潮席卷全球，图像和视频生成技术日新月异。然而，鲜为人知的是，一个名为“tokenizer”的关键组件正悄然推动着这一领域的飞速发展。近日，英伟达开源了一款名为Cosmos的SOTA tokenizer，其速度提升了惊人的12倍，并支持图像和视频的无缝处理，有望彻底改变视频生成、机器人等领域的AI应用。这不仅是一次技术突破，更是一场关于AI底层架构的深刻变革。

主体：

1. Tokenizer：AI图像视频生成领域的“幕后英雄”

在讨论图像和视频生成模型时，人们往往关注的是模型架构，例如DiT。然而，正如谷歌等机构的研究者在论文“Language model Beats diffusion – tokenizer is key to visual generation”中所揭示的，tokenizer的重要性同样不容忽视。一个高效的tokenizer能够将连续、高维的视觉数据转化为模型可处理的紧凑语义token，显著提升模型的性能。蒋路博士在采访中也强调了tokenizer在该领域长期被低估的事实，并呼吁业界加大投入。 tokenizer的关键作用在于建立token间的互联，让模型明确“下一步做什么”，从而充分发挥其潜力。它就像翻译官，将视觉信息翻译成AI能够理解的语言。

2. 现有技术的局限性：速度慢，质量差

目前，虽然市面上存在许多开源的图像和视频tokenizer，但它们常常存在以下问题：生成的token质量不高，导致模型输出图像失真、视频不稳定；token化过程低效，导致编解码速度慢，训练和推理时间长，影响开发效率和用户体验。

3. Cosmos：英伟达的突破性解决方案

为了解决这些问题，英伟达推出了Cosmos tokenizer。这是一个全面的连续和离散图像及视频tokenizer，兼顾高压缩率和高质量重建，速度是现有方法的12倍。其核心优势在于：

高效的架构: Cosmos基于轻量级时间因果架构，利用因果时间卷积和注意力层，高效处理时空信息并保持视频帧顺序。
统一的设计: 支持图像和视频的无缝token化，无需针对不同数据类型进行调整。
高性能: 在高分辨率图像和长视频上进行训练，涵盖各种宽高比，并能处理比训练时间更长的数据。
广泛的适用性: 支持各种图像和视频类型，并提供灵活的压缩率，以适应不同的计算限制。

4. 性能评估和应用前景

英伟达研究人员在标准数据集（MS-COCO 2017、ImageNet-1K、FFHQ、CelebA-HQ和DAVIS）以及他们新策划的TokenBench数据集（涵盖机器人、驾驶和体育等类别）上对Cosmos进行了评估。结果显示，Cosmos在DAVIS视频上的PSNR提升了4dB，token化速度提升了12倍，可在配备80GB内存的英伟达A100 GPU上编码长达8秒的1080p和10秒的720p视频。 1x机器人公司AI副总裁Eric Jang的积极评价也印证了Cosmos的优越性能。

结论：

Cosmos tokenizer的开源，标志着AI图像和视频生成领域迈入了新的纪元。其卓越的性能和广泛的适用性，将极大地推动视频生成、机器人等领域的AI应用发展。未来，我们有理由期待基于Cosmos的更多创新应用涌现，并进一步提升AI的视觉理解和生成能力。 Cosmos的出现，也为其他AI领域提供了宝贵的经验，即关注底层架构的优化，往往能够带来意想不到的突破。

参考文献：

(注：由于无法访问原始文章中提到的论文链接，此处仅提供了可访问的链接。如果能提供论文链接，请替换以上链接。)

>>> Read more <<<