英伟达联手特拉维夫推出文本生成图像系统ComfyGen

引言：

想象一下，你脑海中浮现出一个奇妙的场景，你只需用文字描述，就能让它栩栩如生。ComfyGen，一个由英伟达和特拉维夫大学联合开发的文本到图像生成系统，正让这一梦想成为现实。它突破了传统模型的局限，通过构建复杂的工作流，将文字转化为高质量的图像，为艺术创作、游戏开发、广告营销等领域带来革命性的变革。

ComfyGen的独特之处：

ComfyGen的核心在于其自适应工作流生成能力。它基于大型语言模型（LLM），能够根据用户的文本提示自动创建最适合的图像生成流程。这与传统模型不同，传统模型通常使用单一的生成模型，难以满足复杂场景和多样化风格的需求。

ComfyGen的工作流包含多个专业组件，包括微调基础模型、LoRAs、嵌入、超分辨率步骤等。这些组件协同工作，确保生成的图像符合用户的文本提示，并达到更高的质量。

ComfyGen的技术原理：

ComfyGen的技术原理主要分为三个步骤：

数据收集与训练集构建： 研究人员收集了一组由人类创建的ComfyUI工作流，并通过随机交换工作流参数（如基础模型、LoRAs、采样器等）来增强数据集。他们还用一组文本提示生成图像，并基于美学和人类偏好预测器对图像进行评分，最终形成包含提示、工作流、分数的三元组数据集。
LLM预测： ComfyGen基于LLM预测给定文本提示的最优工作流。它采用两种方法：
- 上下文方法（ComfyGen-IC）：给LLM提供一个包含工作流及在不同类别中的得分的表格，要求它为新的文本提示选择最合适的工作流。
- 微调方法（ComfyGen-FT）：微调一个LLM，在给定文本提示和目标分数的情况下，预测能达到目标分数的工作流。
工作流生成和图像评估：在推理阶段，ComfyGen接收一个文本提示和一个高分数作为输入，LLM预测出一个与条件相匹配的工作流。然后，用预测出的工作流生成图像，并通过人类偏好和图像质量评估指标评估生成的图像。

ComfyGen的应用场景：

ComfyGen的应用场景十分广泛，包括：

结论：

ComfyGen的出现标志着文本到图像生成技术取得了重大突破。它不仅提高了图像生成质量，还简化了工作流程，为各行各业带来了新的可能性。随着技术的不断发展，ComfyGen将继续为我们带来更多惊喜，改变我们与图像交互的方式。

参考文献：