图像生成领域的“Scaling Law”:自回归模型的逆袭之路?
引言: OpenAI 旗舰模型的进步放缓引发了“Scaling Law 撞墙”的热议。然而,近期研究表明,在图像生成领域,基于自回归模型的 Scaling Law却展现出令人振奋的潜力,为大模型发展开辟了新的路径。这是否意味着,自回归模型将成为继 Diffusion 模型之后,图像生成领域的下一个霸主?
主体:
一、 Scaling Law 的争议与新发现:
The Information 的一篇文章指出,由于高质量数据供应的限制,大模型的性能提升正遭遇瓶颈,Scaling Law(通过增加数据和模型规模提升性能)可能失效。这一观点引发了广泛讨论。一部分人认为 Scaling Law 尚未触及极限,推理阶段的潜力尚未充分挖掘;另一部分人则指出,Scaling Law 在文本以外的领域,例如图像和视频生成,依然展现出强大的生命力。
近期,一篇投稿 ICLR 2025 的论文(论文链接)证实了这一观点。该论文通过实验发现,将类似 GPT 的自回归模型应用于图像生成,模型性能随着规模的增加而提升,训练损失降低,图像生成质量提高,全局信息捕捉能力增强。这表明,在图像生成领域,Scaling Law 依然有效。
云天励飞的齐宪标博士及其团队的研究进一步佐证了这一发现。他们在初步实验中发现,自回归模型在图像生成任务上展现出强劲的 Scaling Law,即使只训练到一半,也取得了显著成果。(代码与模型) 这为自回归模型在视觉领域的应用注入了强心剂。
二、 自回归模型:Diffusion 模型之外的另一条道路:
目前,Diffusion 模型在图像生成领域占据主导地位,其生成的图像质量高,且在视频生成方面也取得了显著进展。然而,Transformer 等自回归模型在文本领域的成功,启发了研究者探索其在视觉领域的潜力。
虽然早期的尝试(例如谷歌的 Image Transformer 和 OpenAI 的初代 DALL-E)效果不佳,但随着技术的进步和经验积累,自回归模型在图像生成领域再次焕发生机。齐宪标博士认为,过去的失败为今天的成功提供了宝贵的经验教训。
三、 BiGR 模型:改进自回归方法,实现生成与判别任务的统一:
云天励飞团队的另一项研究(论文链接 代码与模型)提出了改进的自回归模型 BiGR。该模型基于何恺明等人的 MAR 工作,将图像生成和特征提取任务统一在一个框架内,实现了生成能力和特征提取能力的相互促进。这不仅提升了图像生成质量,也为多模态理解和生成提供了新的思路。
四、 未来展望:多模态统一与 Scaling Law 的持续探索:
当前,“Scaling Law 撞墙”的讨论中,多模态被认为是突破瓶颈的关键方向。然而,现有多模态模型通常将理解和生成任务分开处理,导致理解模型生成能力弱,生成模型理解能力弱。自回归模型的 token 化过程,为统一理解和生成任务提供了可能,从而促进模型学习更通用的语义表征,增强跨模态任务的泛化能力。
未来,对自回归模型在图像和视频生成领域的 Scaling Law 的深入研究,以及多模态统一技术的突破,将极大地推动人工智能领域的发展。
结论:
尽管“Scaling Law 撞墙”的担忧存在,但自回归模型在图像生成领域的崛起,为大模型发展提供了新的方向。 BiGR 等改进型模型的出现,以及对 Scaling Law 持续探索的热情,预示着自回归模型将在图像生成领域占据越来越重要的地位。 这场“Scaling Law”的探讨,并非是终点,而是人工智能技术持续演进的新起点。
参考文献:
- Elucidating the design space of language models for image generation. https://arxiv.org/pdf/2410.16257
- BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities. https://arxiv.org/pdf/2410.14672
- (补充其他相关论文和报道链接,如有需要)
Views: 0