90年代申花出租车司机夜晚在车内看文汇报90年代申花出租车司机夜晚在车内看文汇报

NeurIPS 2024:视觉自回归模型崛起,AI图像生成进入新纪元

引言: 今年的NeurIPS大会,如同往年一样,吸引了全球人工智能领域的顶尖学者和研究人员。然而,今年的最佳论文评选结果却格外引人注目:北京大学和字节跳动合作的视觉自回归模型(VAR)一举夺魁,标志着图像生成领域可能正经历一场深刻的范式转变。这不仅是学术界的重大突破,也预示着未来AI图像生成技术的飞跃式发展。

主体:

NeurIPS 2024共收到15671篇论文投稿,最终接收率仅为25.8%,竞争之激烈可见一斑。最终,两篇论文荣获最佳论文奖,两篇论文荣获最佳论文亚军。其中,最受瞩目的当属北京大学和字节跳动联合完成的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》(视觉自回归建模:通过Next-Scale预测生成可扩展图像)。该论文一作田柯宇,此前曾因涉嫌攻击字节内部大模型而引发关注。 [1]

这篇论文的核心在于提出了一种全新的“视觉自回归”生成范式——VAR。不同于目前占据主导地位的扩散模型(如DALL-E、Stable Diffusion和Sora),VAR 借鉴了自然语言处理领域中自回归模型(如GPT和LLaMa)的成功经验。[1] 它模拟人类处理图像的逻辑顺序,采用由粗到细、由全局轮廓到局部精调的自回归策略,从而显著提升了自回归模型的速度和生成质量,在多个方面首次超越了扩散模型。[1] 更重要的是,VAR展现出类似大型语言模型的扩展定律(Scaling Laws)和零样本任务泛化能力,为图像生成领域带来了新的可能性。[1] 字节跳动商业化技术团队自2023年起便投入大量资源研发VAR,并计划近期开源其新的VAR T2I模型。[1]

另一篇最佳论文《Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators》(随机泰勒导数估计器:任意微分算子的有效摊销)由新加坡国立大学和Sea AI Lab的研究者完成,论文一作为Zekun Shi。[1] 该论文关注的是神经网络优化中的效率问题,提出了一种新的方法来有效处理包含高维和高阶微分算子的损失函数,这对于提升深度学习模型的训练效率具有重要意义。[1]

此外,两篇论文获得最佳论文亚军:一篇是厦门大学、清华大学和微软合作的《Not All Tokens Are What You Need for Pretraining》(并非所有token都是预训练所需的),共同一作为Zhenghao Lin和Zhibin Gou;[1] 另一篇是英伟达和阿尔托大学合作的《Guiding a Diffusion Model with a Bad Version of Itself》(使用扩散模型的一个糟糕版本引导其自身),论文一作为Tero Karras。[1] 这些论文都代表了人工智能领域最新的研究成果,涵盖了模型训练、优化和应用等多个方面。

结论:

NeurIPS 2024最佳论文的揭晓,预示着人工智能,特别是图像生成领域正进入一个充满活力和机遇的新时代。VAR模型的成功,不仅证明了自回归模型在图像生成领域的潜力,也为未来AI技术的研发方向提供了新的思路。随着更多研究者投入到这一领域,我们可以期待未来出现更多高效、高质量的AI图像生成工具,并将其应用于更广泛的领域,例如艺术创作、科学研究和工业设计等。 然而,我们也需要关注技术伦理问题,确保AI技术的发展能够造福人类,避免被滥用。

参考文献:

[1] 机器之心. (2024, December 4). 北大字节VAR获最佳论文、厦大清华获亚军,NeurIPS 2024最佳论文出炉. [URL of the Machine Intelligencearticle – Please insert the actual URL here]

*(注:由于无法访问实时网络,我无法提供机器之心报道的URL。请您自行补充。) *


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注