好的,根据您提供的信息,我将以一名资深新闻记者和编辑的身份,撰写一篇关于GPT-4o图像生成技术的新闻报道。
标题:OpenAI秘而不宣,GPT-4o图像生成真相浮出水面?
引言:
OpenAI最新发布的GPT-4o模型,凭借其强大的图像生成能力,迅速引爆了社交媒体。用户无需精通PS,也能轻松创作出各种风格的图像,例如吉卜力风格的特朗普与泽连斯基对话图,令人惊艳。然而,与OpenAI一贯的风格相似,这次他们依旧对GPT-4o图像生成背后的技术细节讳莫如深。尽管官方发布了一份系统卡附录,但其中主要内容集中在评估、安全和治理方面,对核心技术仅轻描淡写地提及:“不同于基于扩散模型的DALL·E,4o图像生成是一个嵌入在ChatGPT中的自回归模型。”
OpenAI的技术保密,反而激起了人们对GPT-4o工作原理的好奇心。一时间,网络上涌现出各种猜测和逆向工程尝试。那么,GPT-4o图像生成的秘密究竟是什么?
主体:
一、技术迷雾:OpenAI的“犹抱琵琶半遮面”
OpenAI对GPT-4o图像生成技术的低调处理,引发了业界的广泛猜测。尽管官方文档中明确指出其采用的是自回归模型,而非DALL·E等使用的扩散模型,但具体实现方式却语焉不详。这种策略,一方面可能出于商业机密保护的考虑,另一方面也可能旨在避免技术被滥用。
二、网友“拼图”:两种主流猜测浮出水面
面对OpenAI的“技术迷雾”,众多研究者和开发者纷纷展开“逆向工程”,试图揭开GPT-4o图像生成的神秘面纱。目前,网络上主要存在两种猜测:
-
猜测一:自回归 + 扩散
这种观点认为,GPT-4o图像生成并非纯粹的自回归过程,而是结合了自回归和扩散两种技术。例如,卡内基梅隆大学(CMU)的博士生Sangyun Lee推测,GPT-4o首先生成视觉token,然后利用扩散模型将这些token解码为像素空间。他进一步推测,GPT-4o可能采用了类似于Rolling Diffusion的分组扩散解码器,以从上到下的顺序进行解码。
Lee的推测基于以下两点:首先,在强大的条件信号(如文本或视觉token)的引导下,用户通常会先看到图像的模糊草图,这表明待生成区域存在粗糙的结构;其次,GPT-4o的用户界面显示,图像是从顶部到底部生成的。
支持这一猜想的相关论文包括:
- Rolling Diffusion Models,arXiv:2402.09470
- Sequential Data Generation with Groupwise Diffusion Process, arXiv:2310.01400
- Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,arXiv:2408.11039
-
猜测二:非扩散的自回归生成
另一种观点则认为,GPT-4o图像生成完全基于自回归模型,不涉及扩散过程。Moonpig公司AI主管Peter Gostev认为,GPT-4o采用从图像顶部开始流式传输token的方式生成图像,类似于文本生成。
Gostev指出,与传统的图像生成模型相比,GPT-4o的关键区别在于其自回归特性。这意味着GPT-4o像生成文本一样,按顺序逐个流式传输图像token。相比之下,基于扩散过程的模型(如Midjourney、DALL·E、Stable Diffusion)通常是从噪声到清晰图像一次性完成转换。
Gostev进一步指出,通过监控浏览器与服务器之间的流量,可以观察到ChatGPT按顺序流式传输token的过程,这进一步佐证了其自回归的特性。
三、前端假象:逐行生成只是“障眼法”?
值得注意的是,香港中文大学博士生刘杰(Jie Liu)在研究GPT-4o的前端时发现,用户在生成图像时看到的逐行生成效果,实际上只是浏览器上的前端动画效果,并不能准确反映图像生成的具体过程。实际上,OpenAI的服务器每次只会向用户端发送5张中间图像。
这意味着,在推断GPT-4o的工作原理时,其生成时的前端展示效果可能并非一个可靠的依据。
结论:
尽管OpenAI对GPT-4o图像生成的技术细节保持缄默,但通过研究者和开发者的不懈努力,我们已经能够窥见其背后的部分真相。无论是“自回归+扩散”的混合模型,还是非扩散的纯自回归模型,都代表着图像生成技术的新方向。
然而,正如刘杰所指出的,前端展示效果可能存在“障眼法”,我们需要更加深入的研究和实验,才能真正揭开GPT-4o图像生成的全部秘密。
未来,随着更多研究的深入,我们有望更全面地了解GPT-4o图像生成的工作原理,并在此基础上开发出更强大的图像生成技术。
参考文献:
- OpenAI. (2024). Native Image Generation System Card. https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/NativeImageGenerationSystemCard.pdf
- Rolling Diffusion Models,arXiv:2402.09470
- Sequential Data Generation with Groupwise Diffusion Process, arXiv:2310.01400
- Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,arXiv:2408.11039
- Gostev, P. (2024). LinkedIn post. https://www.linkedin.com/feed/update/urn:li:activity:7311176227078172674/
(完)
Views: 0