ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略
【新闻稿】
近日,人工智能领域的研究人员倪赞林,在清华大学自动化系黄高副教授的指导下,提出了一种名为AdaNAT的视觉生成新策略。该策略旨在解决离散Token视觉生成中的自适应推理问题,并在ECCV 2024会议上进行了发布。
倪赞林是清华大学自动化系2022级直博生,主要研究方向为高效深度学习与图像生成。他在ICC、CVPR、ECCV、ICLR等国际会议上发表了多篇学术论文。本次提出的AdaNAT,正是基于他在这些领域的深入研究。
近年来,人工智能生成内容(AIGC)领域发展迅速。在计算机视觉中,扩散模型已成为一种有效且常用的模型。然而,在自然语言处理领域,内容的生成通常通过使用Transformer去生成离散的token。受到这种差异的启发,倪赞林等研究者开始探索基于离散token的生成范式在视觉合成中的应用。
AdaNAT的核心思想是引入一个可学习的策略网络,自动根据每个样本自适应地配置生成策略。这种方法可以有效地解决传统方法中需要大量专业知识和人力成本的问题,同时使生成策略更加灵活,能够适应不同的样本特性。
在生成策略的优化过程中,倪赞林等研究者遇到了一个挑战:基于离散token的生成过程是不可微的,无法直接采用标准的端到端优化技术。为了解决这个问题,他们采用了一种马尔可夫决策过程(MDP)的形式,使得策略网络可以被定义为一个“观察生成状态,自适应地配置策略以最大化生成质量”的agent。
此外,为了解决策略网络过拟合的问题,倪赞林等研究者提出了一个对抗奖励模型,类似于GAN中的判别器,以生成样本为真实图片的概率作为奖励。当策略网络学习最大化奖励时,他们同时优化奖励模型,以更好地区分真实样本和生成样本。
在多个基准数据集上,AdaNAT取得了令人瞩目的成果。与主流的扩散模型相比,AdaNAT在低开销场景下,推理开销至少减少了2-3倍,同时生成效果更佳。
关于倪赞林等研究者提出的AdaNAT,机器之心AIxiv专栏进行了报道。如果您有优秀的工作想要分享,欢迎投稿或联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。
论文标题:AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation
论文地址:https://arxiv.org/abs/2409.00342
代码与预训练模型已经开源:https://github.com/LeapLabTHU/AdaNAT
Views: 0