Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

最新消息最新消息
0

摘要: 英伟达联合麻省理工学院(MIT)、清华大学、北京大学等顶尖学府,推出了最新的文生图框架SANA 1.5。该框架在SANA 1.0的基础上,通过高效的训练扩展、模型深度剪枝和推理时扩展等创新技术,实现了在计算资源有限的情况下,大幅提升图像生成质量和效率的目标,为创意设计、教学辅助等领域带来了新的可能性。

北京 – 近日,人工智能领域迎来一项重要突破。由英伟达公司领衔,联合麻省理工学院(MIT)、清华大学、北京大学等国内外顶尖科研机构共同研发的文生图框架SANA 1.5正式发布。该框架旨在解决文生图技术在实际应用中面临的计算资源消耗大、模型推理效率低等问题,为用户提供更高质量、更高效的图像生成体验。

SANA 1.5:三大创新驱动性能飞跃

SANA 1.5并非简单的版本迭代,而是一次全面的技术升级。它在SANA 1.0的基础上,重点突破了以下三个关键技术:

  • 高效训练扩展: 传统的大模型训练往往需要耗费大量的计算资源。SANA 1.5采用了“深度增长范式”,能够将模型参数从16亿扩展到48亿,同时显著降低计算资源的需求。结合高效的8位优化器,使得大规模模型的训练变得更加可行。
  • 模型深度剪枝: 为了适应不同的计算预算,SANA 1.5引入了基于块重要性分析的模型压缩技术。通过分析扩散变换器中输入输出的相似性模式,剪枝不重要的模块,从而将大型模型高效地压缩到任意大小,并最小化质量损失。实验表明,即使将48亿参数的模型剪枝到16亿参数,经过微调后,其性能甚至超过了SANA 1.0的16亿参数模型。
  • 推理时扩展: SANA 1.5提出了独特的推理时扩展策略。通过重复采样并利用视觉语言模型(VLM)选择最佳样本,使得小型模型在推理时能够达到大型模型的生成质量。这一创新极大地提升了模型在资源受限环境下的表现。

性能测试:数据说话,实力见证

SANA 1.5的性能提升并非纸上谈兵,而是经过了严格的测试验证。

  • 模型增长: 通过模型增长策略,SANA 1.5的GenEval分数从0.66提升到0.72,逼近行业领先的Playground v3(24亿参数)的0.76,但推理延迟降低了5.5倍。
  • 模型剪枝: 将48亿参数模型剪枝到16亿参数后,经过100步微调,GenEval分数达到0.672,超过了SANA 1.0 16亿参数模型的0.664。
  • 推理时扩展: 通过生成多个样本并基于VLM选择最佳样本,SANA 1.5的GenEval分数从0.72提高到0.80,超越了Playground v3的0.76。

应用前景:赋能多领域创新

SANA 1.5的卓越性能使其在多个领域拥有广阔的应用前景:

  • 创意设计: 广告设计、插画创作、游戏美术等领域可以利用SANA 1.5快速生成高质量的图像,激发创意灵感。
  • 教学辅助: 教师可以利用SANA 1.5生成与课程相关的图像,帮助学生更好地理解抽象概念。
  • 影视制作: 概念艺术、场景设计图等环节可以借助SANA 1.5快速构思和验证创意。
  • 工程设计: 工程师可以利用SANA 1.5生成工程设计的视觉效果图,帮助团队更好地理解设计意图和优化设计方案。
  • 移动应用: 通过模型深度剪枝和推理时扩展,SANA 1.5可以在移动设备上高效运行,为移动应用提供实时图像生成功能。
  • 内容审核: 结合安全检查模型,SANA 1.5可以在生成图像前对用户输入的文本进行审核,确保生成的内容符合安全标准。

开源与社区支持:共建AI生态

为了推动SANA 1.5的普及和发展,研究团队已经开源了代码和预训练模型,并积极鼓励研究人员和开发者进行定制和扩展。这一举措将进一步推动SANA 1.5在学术研究和工业应用中的普及,促进AI生态的繁荣。

结语:

SANA 1.5的发布,标志着文生图技术在效率和质量上取得了显著的进步。它不仅为创意设计等领域带来了新的工具,也为AI技术的未来发展指明了方向。随着开源社区的不断壮大和技术的持续创新,SANA 1.5有望在更多领域发挥重要作用,为人类社会带来更多价值。

参考文献:

  • arXiv技术论文: https://arxiv.org/pdf/2501.18427 (请注意,此链接为示例,请根据实际情况更新)
  • AI工具集网站相关报道:[此处添加AI工具集网站关于SANA 1.5的链接]

关键词: SANA 1.5,文生图,英伟达,MIT,清华大学,北京大学,人工智能,深度学习,模型剪枝,推理时扩展,开源。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注