新加坡国立大学开源MakeAnything框架

摘要： 新加坡国立大学Show Lab团队近日开源了一款名为MakeAnything的创新框架，该框架利用扩散变换器技术，能够根据文本描述或图像输入，生成高质量、逻辑连贯且视觉一致的程序性教程序列。这一突破性的AI工具，有望在教育、艺术创作、工艺传承等多个领域发挥重要作用。

正文：

人工智能（AI）正以前所未有的速度渗透到我们生活的方方面面，从AI写作到AI绘画，各种AI工具层出不穷。近日，新加坡国立大学（NUS）Show Lab团队推出了一款名为MakeAnything的开源框架，再次拓展了AI的应用边界。这款工具能够根据用户提供的文本描述或图像输入，自动生成详细的分步教程，为用户提供一种全新的学习和创作方式。

MakeAnything的核心在于其强大的多领域程序性序列生成能力。它基于扩散变换器（Diffusion Transformer）技术，结合非对称低秩适配（LoRA）和ReCraft模型，实现了从文本到过程和从图像到过程的双向生成范式。这意味着，用户既可以通过输入一段文字描述，例如“如何画一幅油画”或“如何制作乐高模型”，让MakeAnything自动生成详细的绘画或制作步骤；也可以上传一张成品图像，例如一幅画作或一个手工制品，让MakeAnything逆向生成该作品的创作过程。

技术原理：扩散变换器、LoRA与ReCraft模型的巧妙融合

MakeAnything的技术原理颇为复杂，但其核心思想可以概括为：利用扩散模型逐步去除噪声生成图像序列，并结合Transformer架构处理复杂的视觉和文本信息。

扩散变换器： 这是MakeAnything的核心驱动力。扩散模型通过逐步添加噪声，将原始图像转化为完全随机的噪声图像，然后再通过学习逆向过程，逐步从噪声中恢复出原始图像。结合Transformer架构，扩散变换器能够有效地处理复杂的视觉和文本信息，生成高质量的程序性序列。
非对称低秩适配（LoRA）： 为了平衡模型的泛化能力和任务特定性能，MakeAnything采用了LoRA技术。LoRA通过冻结预训练的编码器参数，仅对解码器进行微调，从而避免了在数据稀缺或分布不平衡的任务中出现过拟合现象。
ReCraft模型： ReCraft模型是MakeAnything实现从图像到过程逆向生成的关键。它能够将静态图像分解为逐步的创作过程，并利用多模态注意力机制将图像条件信息融入生成过程中，确保生成的序列与输入图像高度一致。

为了训练出能够胜任各种任务的MakeAnything，NUS Show Lab团队构建了一个涵盖21个领域（如绘画、手工、烹饪等）的大型数据集，其中包含超过24,000个标注序列。此外，MakeAnything还采用了条件流匹配损失，以优化噪声去除过程中的条件向量场，确保生成的序列在逻辑和视觉上与输入条件（文本或图像）保持一致。

应用场景：潜力无限，赋能多领域

MakeAnything的应用场景十分广泛，有望在多个领域发挥重要作用：

教育领域： MakeAnything可以为学生提供绘画、手工、烹饪等分步教程，辅助学习，提高学习效率。
艺术创作： 艺术家可以利用MakeAnything从创意到成品生成创作过程，激发灵感，探索新的创作方式。
工艺传承： MakeAnything可以基于成品图像逆向生成制作步骤，助力传统工艺的记录和传承，避免技艺失传。
产品开发： 产品设计师可以根据设计概念快速生成制作流程，优化开发效率，缩短产品上市时间。
内容创作： 内容创作者可以利用MakeAnything生成有趣教程或视频，用于社交媒体和娱乐，吸引更多用户。

未来展望：开源社区的共同发展

MakeAnything的开源，无疑将加速其在各个领域的应用和发展。通过开放源代码，NUS Show Lab团队希望能够吸引更多的研究者和开发者参与到MakeAnything的改进和完善中来，共同推动AI技术的发展。

项目地址：

GitHub仓库：https://github.com/showlab/MakeAnything
HuggingFace模型库：https://huggingface.co/showlab/makeanything & https://huggingface.co/datasets/showlab/makeanything
arXiv技术论文：https://arxiv.org/pdf/2502.01572

MakeAnything的出现，不仅展示了AI在生成程序性序列方面的强大能力，也为我们提供了一种全新的学习和创作方式。随着技术的不断发展和完善，我们有理由相信，MakeAnything将在未来发挥更大的作用，为我们的生活带来更多的便利和惊喜。

参考文献：

Show Lab, National University of Singapore. (2024). MakeAnything: Consistent Image Sequence Generation Framework. Retrieved from https://github.com/showlab/MakeAnything
Show Lab, National University of Singapore. (2024). MakeAnything Models. Retrieved from https://huggingface.co/showlab/makeanything
Show Lab, National University of Singapore. (2024). MakeAnything Dataset. Retrieved from https://huggingface.co/datasets/showlab/makeanything
Show Lab, National University of Singapore. (2024). MakeAnything: Consistent Image Sequence Generation Framework (arXiv Preprint). Retrieved from https://arxiv.org/pdf/2502.01572

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

新加坡国立大学开源MakeAnything框架

作者智能小编

相关文章

Tencent-Backed Founder Builds AIGC Platform Boasts High Engagement & Conversion

ICLR 2025：中国科大、Meta论文荣膺杰出奖

腾讯收购后再创业，AIGC交互平台用户粘性惊人

发表回复取消回复

为您推荐