Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

好的,根据您提供的信息,我将以一名资深新闻记者和编辑的身份,撰写一篇关于GPT-4o图像生成技术的新闻报道。

标题:OpenAI秘而不宣,GPT-4o图像生成真相浮出水面?

引言:

OpenAI最新发布的GPT-4o模型,凭借其强大的图像生成能力,迅速引爆了社交媒体。用户无需精通PS,也能轻松创作出各种风格的图像,例如吉卜力风格的特朗普与泽连斯基对话图,令人惊艳。然而,与OpenAI一贯的风格相似,这次他们依旧对GPT-4o图像生成背后的技术细节讳莫如深。尽管官方发布了一份系统卡附录,但其中主要内容集中在评估、安全和治理方面,对核心技术仅轻描淡写地提及:“不同于基于扩散模型的DALL·E,4o图像生成是一个嵌入在ChatGPT中的自回归模型。”

OpenAI的技术保密,反而激起了人们对GPT-4o工作原理的好奇心。一时间,网络上涌现出各种猜测和逆向工程尝试。那么,GPT-4o图像生成的秘密究竟是什么?

主体:

一、技术迷雾:OpenAI的“犹抱琵琶半遮面”

OpenAI对GPT-4o图像生成技术的低调处理,引发了业界的广泛猜测。尽管官方文档中明确指出其采用的是自回归模型,而非DALL·E等使用的扩散模型,但具体实现方式却语焉不详。这种策略,一方面可能出于商业机密保护的考虑,另一方面也可能旨在避免技术被滥用。

二、网友“拼图”:两种主流猜测浮出水面

面对OpenAI的“技术迷雾”,众多研究者和开发者纷纷展开“逆向工程”,试图揭开GPT-4o图像生成的神秘面纱。目前,网络上主要存在两种猜测:

  • 猜测一:自回归 + 扩散

    这种观点认为,GPT-4o图像生成并非纯粹的自回归过程,而是结合了自回归和扩散两种技术。例如,卡内基梅隆大学(CMU)的博士生Sangyun Lee推测,GPT-4o首先生成视觉token,然后利用扩散模型将这些token解码为像素空间。他进一步推测,GPT-4o可能采用了类似于Rolling Diffusion的分组扩散解码器,以从上到下的顺序进行解码。

    Lee的推测基于以下两点:首先,在强大的条件信号(如文本或视觉token)的引导下,用户通常会先看到图像的模糊草图,这表明待生成区域存在粗糙的结构;其次,GPT-4o的用户界面显示,图像是从顶部到底部生成的。

    支持这一猜想的相关论文包括:

    • Rolling Diffusion Models,arXiv:2402.09470
    • Sequential Data Generation with Groupwise Diffusion Process, arXiv:2310.01400
    • Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,arXiv:2408.11039
  • 猜测二:非扩散的自回归生成

    另一种观点则认为,GPT-4o图像生成完全基于自回归模型,不涉及扩散过程。Moonpig公司AI主管Peter Gostev认为,GPT-4o采用从图像顶部开始流式传输token的方式生成图像,类似于文本生成。

    Gostev指出,与传统的图像生成模型相比,GPT-4o的关键区别在于其自回归特性。这意味着GPT-4o像生成文本一样,按顺序逐个流式传输图像token。相比之下,基于扩散过程的模型(如Midjourney、DALL·E、Stable Diffusion)通常是从噪声到清晰图像一次性完成转换。

    Gostev进一步指出,通过监控浏览器与服务器之间的流量,可以观察到ChatGPT按顺序流式传输token的过程,这进一步佐证了其自回归的特性。

三、前端假象:逐行生成只是“障眼法”?

值得注意的是,香港中文大学博士生刘杰(Jie Liu)在研究GPT-4o的前端时发现,用户在生成图像时看到的逐行生成效果,实际上只是浏览器上的前端动画效果,并不能准确反映图像生成的具体过程。实际上,OpenAI的服务器每次只会向用户端发送5张中间图像。

这意味着,在推断GPT-4o的工作原理时,其生成时的前端展示效果可能并非一个可靠的依据。

结论:

尽管OpenAI对GPT-4o图像生成的技术细节保持缄默,但通过研究者和开发者的不懈努力,我们已经能够窥见其背后的部分真相。无论是“自回归+扩散”的混合模型,还是非扩散的纯自回归模型,都代表着图像生成技术的新方向。

然而,正如刘杰所指出的,前端展示效果可能存在“障眼法”,我们需要更加深入的研究和实验,才能真正揭开GPT-4o图像生成的全部秘密。

未来,随着更多研究的深入,我们有望更全面地了解GPT-4o图像生成的工作原理,并在此基础上开发出更强大的图像生成技术。

参考文献:

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注