Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

导语: OpenAI 最新发布的 GPT-4o 模型,不仅在吉卜力风格图像生成方面引发热潮,其强大的图像编辑功能和初步显现的推理能力,正预示着 AI 技术在图像处理和认知理解领域的新突破。这不仅仅是一次技术升级,更是一场 AI 应用的革新,它将如何重塑我们的创作方式和信息获取模式?

吉卜力风潮:GPT-4o 引爆社交媒体

近日,OpenAI 的 GPT-4o 模型无疑成为了 AI 领域的焦点。其生成的吉卜力风格图像和视频在各大社交平台迅速走红,用户们纷纷利用这一技术进行创作,玩出了各种新花样。

机器之心报道称,有用户利用 GPT-4o 和可灵(一款 AI 视频生成工具)制作了吉卜力版《甄嬛传》,该作品在全网的播放量超过 20 万。尽管在口型和神情方面仍有提升空间,但人物形象的还原度令人惊艳。

此外,X 平台(原 Twitter)上的网友也利用 GPT-4o 和 Luma Ray 2,将电影《疯狂的麦克斯》改编成了动画版。这些案例充分展示了 GPT-4o 在动画生成方面的巨大潜力,激发了用户对 AI 动画创作的无限想象。

隐藏的宝藏:GPT-4o 的画笔编辑功能

在用户们热衷于探索 AI 动画生成的同时,GPT-4o 还有一个在 OpenAI 发布介绍中并未重点提及,但却非常实用的功能被挖掘出来,那就是画笔编辑。

这项功能允许用户通过简单的涂抹和 prompt 指令,对图像进行精细的修改。用户只需点击生成的图片,找到画笔按钮,即可进入画板界面。然后,涂抹需要修改的部分,并输入相关的 prompt,GPT-4o 就能根据指令生成新的图像。

机器之心对这一功能进行了上手测试,并分享了一个生动的例子:将一张同事的照片转换成吉卜力风格后,使用画笔工具涂抹掉照片中的外套,并输入 prompt“移除外套只保留里面那件短袖”。结果,GPT-4o 生成了一张保留了大量原图细节的“脱去外套版”图片。

虽然新生成的图像与原图之间仍存在一些差异,例如背景中石头和植被的布置以及人物的表情发生了变化,但整体细节的保留度较高,GPT-4o 也能够准确理解用户的指令。

一键抠图,「换装换背景」:图像编辑的无限可能

GPT-4o 的画笔编辑功能不仅可以移除或修改图像中的元素,还可以实现一键抠图、「换装换背景」等高级操作。

机器之心分享的案例中,用户将一张照片的背景替换成了小溪,营造出一种清新自然的氛围。此外,用户还可以给同事的童年照片加上一顶海盗帽,创造出充满趣味性的图像。

尽管在处理复杂场景时,GPT-4o 的表现仍有提升空间,但在人物细节和风格的保持方面,它已经展现出了强大的能力。例如,用户尝试弥补《大话西游》中至尊宝和紫霞仙子的遗憾结局,对图像进行了换位处理。虽然猴子的头部略有失真,身体也没有完全被云雾覆盖,但人物的细节和风格都得到了较好的保留。

GPT-4o 的画笔编辑功能为图像编辑带来了全新的可能性,它降低了图像编辑的门槛,让普通用户也能轻松创作出高质量的图像作品。

推理能力初显:GPT-4o 或将整合推理与非推理模型

除了强大的图像编辑功能外,GPT-4o 还展现出了初步的推理能力。有用户发现,GPT-4o 现在可以显示推理时间和思维链过程。

这一发现引发了人们的猜测:OpenAI 是否正在尝试合并推理与非推理模型?正如 OpenAI CEO 奥特曼此前透露的那样,OpenAI 计划统一 o 系列与 GPT 系列模型,构建可以自主判断任务需求的智能系统,从而避免用户每次都需要手动选择模型。

有用户分享了自己 2024 年底的截图,暗示 OpenAI 可能早在数月前就开始测试 GPT-4o 的推理能力。该用户表示,现在的推理过程看起来比去年更长、更好。另一位用户则指出,这可能反映了 OpenAI 如何输出“推理”过程,过去 o1 和 o3 的推理方式与现在有所不同。

越来越多的用户发现了 GPT-4o 的推理现象,但也有人怀疑这可能只是一个 bug。然而,即使是 bug,也可能是一个非常有趣的 bug。正如一位网友所说,我们可能正在实时观察 GPT-5 的启动,模型版本之间的界限正在迅速模糊并合并。

如果 GPT-4o 真的具备了推理能力,这将意味着 AI 模型在认知理解方面取得了重大突破。未来的 AI 模型不仅能够生成图像、文本等内容,还能够像人类一样进行思考和推理,从而更好地理解用户的需求,并提供更加智能化的服务。

产业影响:GPT-4o 将重塑哪些领域?

GPT-4o 的发布无疑将对多个产业产生深远的影响。

1. 创意产业: GPT-4o 的图像编辑和生成能力将极大地提升创意产业的效率和创造力。设计师、艺术家、广告从业者等可以利用 GPT-4o 快速生成创意草图、修改图像素材、制作动画视频等,从而节省时间和精力,专注于更具创造性的工作。

2. 教育领域: GPT-4o 可以用于制作教育素材、辅助教学、个性化学习等。例如,教师可以利用 GPT-4o 生成生动的图像和动画,帮助学生更好地理解抽象概念;学生可以利用 GPT-4o 修改图像、制作演示文稿,提升学习效果。

3. 社交媒体: GPT-4o 的图像编辑和生成能力将进一步丰富社交媒体的内容形式,提升用户互动性。用户可以利用 GPT-4o 创作个性化的头像、表情包、短视频等,分享自己的生活和想法。

4. 电商领域: GPT-4o 可以用于生成商品图片、制作广告素材、优化用户体验等。例如,电商平台可以利用 GPT-4o 自动生成高质量的商品图片,提升商品的吸引力;商家可以利用 GPT-4o 制作个性化的广告素材,吸引潜在客户。

5. 游戏产业: GPT-4o 可以用于生成游戏素材、制作游戏场景、优化游戏体验等。例如,游戏开发者可以利用 GPT-4o 快速生成游戏角色、道具、场景等,缩短游戏开发周期;玩家可以利用 GPT-4o 修改游戏画面、定制游戏角色,提升游戏乐趣。

挑战与展望:GPT-4o 的未来之路

尽管 GPT-4o 展现出了强大的能力,但它仍然面临着一些挑战。

1. 伦理问题: GPT-4o 的图像编辑和生成能力可能会被滥用,例如用于制作虚假信息、侵犯他人隐私等。因此,我们需要制定相关的伦理规范,防止 GPT-4o 被用于不正当的用途。

2. 版权问题: GPT-4o 生成的图像可能涉及版权问题,例如使用了受版权保护的素材。因此,我们需要明确 GPT-4o 生成图像的版权归属,避免侵权行为的发生。

3. 技术限制: GPT-4o 在处理复杂场景时仍存在一些技术限制,例如难以准确理解用户的意图、生成高质量的图像。因此,我们需要不断改进 GPT-4o 的技术,提升其图像编辑和生成能力。

展望未来,GPT-4o 有望在以下几个方面取得更大的突破:

1. 更强的推理能力: 随着 OpenAI 不断改进 GPT-4o 的技术,其推理能力有望得到进一步提升。未来的 GPT-4o 不仅能够生成图像,还能够像人类一样进行思考和推理,从而更好地理解用户的需求,并提供更加智能化的服务。

2. 更高的图像质量: 随着技术的不断发展,GPT-4o 生成的图像质量有望得到显著提升。未来的 GPT-4o 能够生成更加逼真、细腻、高质量的图像,满足用户对图像质量的更高要求。

3. 更广泛的应用场景: 随着 GPT-4o 的不断发展,其应用场景有望得到进一步拓展。未来的 GPT-4o 将被应用于更多的领域,为人们的生活和工作带来更多的便利。

结语:AI 赋能,未来可期

GPT-4o 的发布是 AI 技术发展的一个重要里程碑。它不仅展现了 AI 在图像编辑和生成方面的强大能力,还预示着 AI 在认知理解方面的新突破。随着技术的不断发展,我们有理由相信,未来的 AI 将会更加智能、更加强大,为人类社会带来更多的福祉。

然而,我们也需要清醒地认识到,AI 技术的发展也带来了一些伦理和社会问题。我们需要制定相关的规范,确保 AI 技术被用于正当的用途,避免其被滥用。

总之,GPT-4o 的发布是 AI 赋能时代的开端。让我们共同期待 AI 技术在未来的发展,共同创造一个更加美好的未来。

参考文献:

  • 机器之心. (2025, March 30). 吉卜力只是开胃小菜,GPT-4o一键抠图「换装换背景」!推理也初步显现. Retrieved from [机器之心报道原文链接] (请替换为实际链接)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注