AI图像生成：Scaling Law撞墙？

图像生成领域的“Scaling Law”：自回归模型的逆袭之路？

引言： OpenAI 旗舰模型的进步放缓引发了“Scaling Law 撞墙”的热议。然而，近期研究表明，在图像生成领域，基于自回归模型的 Scaling Law却展现出令人振奋的潜力，为大模型发展开辟了新的路径。这是否意味着，自回归模型将成为继 Diffusion 模型之后，图像生成领域的下一个霸主？

主体：

一、 Scaling Law 的争议与新发现：

The Information 的一篇文章指出，由于高质量数据供应的限制，大模型的性能提升正遭遇瓶颈，Scaling Law（通过增加数据和模型规模提升性能）可能失效。这一观点引发了广泛讨论。一部分人认为 Scaling Law 尚未触及极限，推理阶段的潜力尚未充分挖掘；另一部分人则指出，Scaling Law 在文本以外的领域，例如图像和视频生成，依然展现出强大的生命力。

近期，一篇投稿 ICLR 2025 的论文（论文链接）证实了这一观点。该论文通过实验发现，将类似 GPT 的自回归模型应用于图像生成，模型性能随着规模的增加而提升，训练损失降低，图像生成质量提高，全局信息捕捉能力增强。这表明，在图像生成领域，Scaling Law 依然有效。

云天励飞的齐宪标博士及其团队的研究进一步佐证了这一发现。他们在初步实验中发现，自回归模型在图像生成任务上展现出强劲的 Scaling Law，即使只训练到一半，也取得了显著成果。(代码与模型) 这为自回归模型在视觉领域的应用注入了强心剂。

二、自回归模型：Diffusion 模型之外的另一条道路：

目前，Diffusion 模型在图像生成领域占据主导地位，其生成的图像质量高，且在视频生成方面也取得了显著进展。然而，Transformer 等自回归模型在文本领域的成功，启发了研究者探索其在视觉领域的潜力。

虽然早期的尝试（例如谷歌的 Image Transformer 和 OpenAI 的初代 DALL-E）效果不佳，但随着技术的进步和经验积累，自回归模型在图像生成领域再次焕发生机。齐宪标博士认为，过去的失败为今天的成功提供了宝贵的经验教训。

三、 BiGR 模型：改进自回归方法，实现生成与判别任务的统一：

云天励飞团队的另一项研究（论文链接代码与模型）提出了改进的自回归模型 BiGR。该模型基于何恺明等人的 MAR 工作，将图像生成和特征提取任务统一在一个框架内，实现了生成能力和特征提取能力的相互促进。这不仅提升了图像生成质量，也为多模态理解和生成提供了新的思路。

四、未来展望：多模态统一与 Scaling Law 的持续探索：

当前，“Scaling Law 撞墙”的讨论中，多模态被认为是突破瓶颈的关键方向。然而，现有多模态模型通常将理解和生成任务分开处理，导致理解模型生成能力弱，生成模型理解能力弱。自回归模型的 token 化过程，为统一理解和生成任务提供了可能，从而促进模型学习更通用的语义表征，增强跨模态任务的泛化能力。

未来，对自回归模型在图像和视频生成领域的 Scaling Law 的深入研究，以及多模态统一技术的突破，将极大地推动人工智能领域的发展。

结论：

尽管“Scaling Law 撞墙”的担忧存在，但自回归模型在图像生成领域的崛起，为大模型发展提供了新的方向。 BiGR 等改进型模型的出现，以及对 Scaling Law 持续探索的热情，预示着自回归模型将在图像生成领域占据越来越重要的地位。这场“Scaling Law”的探讨，并非是终点，而是人工智能技术持续演进的新起点。

参考文献：

Elucidating the design space of language models for image generation. https://arxiv.org/pdf/2410.16257
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities. https://arxiv.org/pdf/2410.14672
(补充其他相关论文和报道链接，如有需要)

>>> Read more <<<