GPT-4o图像生成：OpenAI未公开的秘密？

好的，根据您提供的信息，我将以一名资深新闻记者和编辑的身份，撰写一篇关于GPT-4o图像生成技术的新闻报道。

标题：OpenAI秘而不宣，GPT-4o图像生成真相浮出水面？

引言：

OpenAI最新发布的GPT-4o模型，凭借其强大的图像生成能力，迅速引爆了社交媒体。用户无需精通PS，也能轻松创作出各种风格的图像，例如吉卜力风格的特朗普与泽连斯基对话图，令人惊艳。然而，与OpenAI一贯的风格相似，这次他们依旧对GPT-4o图像生成背后的技术细节讳莫如深。尽管官方发布了一份系统卡附录，但其中主要内容集中在评估、安全和治理方面，对核心技术仅轻描淡写地提及：“不同于基于扩散模型的DALL·E，4o图像生成是一个嵌入在ChatGPT中的自回归模型。”

OpenAI的技术保密，反而激起了人们对GPT-4o工作原理的好奇心。一时间，网络上涌现出各种猜测和逆向工程尝试。那么，GPT-4o图像生成的秘密究竟是什么？

主体：

一、技术迷雾：OpenAI的“犹抱琵琶半遮面”

OpenAI对GPT-4o图像生成技术的低调处理，引发了业界的广泛猜测。尽管官方文档中明确指出其采用的是自回归模型，而非DALL·E等使用的扩散模型，但具体实现方式却语焉不详。这种策略，一方面可能出于商业机密保护的考虑，另一方面也可能旨在避免技术被滥用。

二、网友“拼图”：两种主流猜测浮出水面

面对OpenAI的“技术迷雾”，众多研究者和开发者纷纷展开“逆向工程”，试图揭开GPT-4o图像生成的神秘面纱。目前，网络上主要存在两种猜测：

猜测一：自回归 + 扩散

这种观点认为，GPT-4o图像生成并非纯粹的自回归过程，而是结合了自回归和扩散两种技术。例如，卡内基梅隆大学（CMU）的博士生Sangyun Lee推测，GPT-4o首先生成视觉token，然后利用扩散模型将这些token解码为像素空间。他进一步推测，GPT-4o可能采用了类似于Rolling Diffusion的分组扩散解码器，以从上到下的顺序进行解码。

Lee的推测基于以下两点：首先，在强大的条件信号（如文本或视觉token）的引导下，用户通常会先看到图像的模糊草图，这表明待生成区域存在粗糙的结构；其次，GPT-4o的用户界面显示，图像是从顶部到底部生成的。

支持这一猜想的相关论文包括：
- Rolling Diffusion Models，arXiv:2402.09470
- Sequential Data Generation with Groupwise Diffusion Process， arXiv:2310.01400
- Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model，arXiv:2408.11039
猜测二：非扩散的自回归生成

另一种观点则认为，GPT-4o图像生成完全基于自回归模型，不涉及扩散过程。Moonpig公司AI主管Peter Gostev认为，GPT-4o采用从图像顶部开始流式传输token的方式生成图像，类似于文本生成。

Gostev指出，与传统的图像生成模型相比，GPT-4o的关键区别在于其自回归特性。这意味着GPT-4o像生成文本一样，按顺序逐个流式传输图像token。相比之下，基于扩散过程的模型（如Midjourney、DALL·E、Stable Diffusion）通常是从噪声到清晰图像一次性完成转换。

Gostev进一步指出，通过监控浏览器与服务器之间的流量，可以观察到ChatGPT按顺序流式传输token的过程，这进一步佐证了其自回归的特性。

三、前端假象：逐行生成只是“障眼法”？

值得注意的是，香港中文大学博士生刘杰（Jie Liu）在研究GPT-4o的前端时发现，用户在生成图像时看到的逐行生成效果，实际上只是浏览器上的前端动画效果，并不能准确反映图像生成的具体过程。实际上，OpenAI的服务器每次只会向用户端发送5张中间图像。

这意味着，在推断GPT-4o的工作原理时，其生成时的前端展示效果可能并非一个可靠的依据。

结论：

尽管OpenAI对GPT-4o图像生成的技术细节保持缄默，但通过研究者和开发者的不懈努力，我们已经能够窥见其背后的部分真相。无论是“自回归+扩散”的混合模型，还是非扩散的纯自回归模型，都代表着图像生成技术的新方向。

然而，正如刘杰所指出的，前端展示效果可能存在“障眼法”，我们需要更加深入的研究和实验，才能真正揭开GPT-4o图像生成的全部秘密。

未来，随着更多研究的深入，我们有望更全面地了解GPT-4o图像生成的工作原理，并在此基础上开发出更强大的图像生成技术。

参考文献：

OpenAI. (2024). Native Image Generation System Card. https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/NativeImageGenerationSystemCard.pdf
Rolling Diffusion Models，arXiv:2402.09470
Sequential Data Generation with Groupwise Diffusion Process， arXiv:2310.01400
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model，arXiv:2408.11039
Gostev, P. (2024). LinkedIn post. https://www.linkedin.com/feed/update/urn:li:activity:7311176227078172674/

（完）

>>> Read more <<<

GPT-4o图像生成：OpenAI未公开的秘密？

作者智能小编

相关文章

陈春花：智能寻捷径，智慧照亮生命

智谱AI CEO：大模型领域存在“反共识”

语音交互：AI应用新王牌，巨头B2C掉队？

发表回复取消回复

为您推荐