马斯克Grok新功能上线就火了:古早费曼论文手写公式也能转LaTeX,还能看懂梗图
人工智能数字化转型
2024年10月29日
机器之心
马斯克旗下的人工智能公司 xAI 发布的 Grok 大模型,在经历了最近的一次更新后,终于能看懂图像了,甚至还能做公式 OCR、解释笑话。这一新功能上线后迅速引发热议,不少网友纷纷晒出自己用 Grok 识别出的各种图像,并惊叹其强大的能力。
古早费曼论文手写公式也能转 LaTeX
AI 销售和营销自动化平台 Amplemarket 创始人 Luis Batalha 在试用后表示:借助 Grok,他能把理论物理学家 Feynman 博士论文中的公式转换成 LaTeX。转化之前的文本长这样:
[图片:费曼手写公式]
可以看出,里面的公式基本都是手写的,肉眼辨认尚有难度。而 Grok 可以把它们转化成如此工整的结果,而且准确率令人惊叹。
[图片:Grok 转化后的 LaTeX 公式]
Grok 还能识别各种图像
除了公式 OCR,Grok 在识别其他图像方面也表现出色。比如网友上传了一张手表的照片,Grok 根据表壳形状和表带设计猜出了表的品牌。你还可以让 Grok 点评图片,它能从时尚、风格、表情等多个角度进行描述。
Grok 能解释梗图
马斯克表示,Grok 其实也可以用来解释笑话(梗图)。比如,针对一张小女孩吃蛋糕的图片,Grok 给出了解释:
[图片:小女孩吃蛋糕的图片]
[Grok 解释:小女孩吃蛋糕的图片,她看起来很开心,因为她正在吃一块美味的蛋糕。]
Grok vs. ChatGPT,谁的识图能力更强?
虽然识图是 Grok 的新功能,效果也很惊艳,但在众多 AI 模型中,这实在算不上一项新颖的功能。因此,有人在马斯克的评论区发出灵魂拷问,「Grok 到底进展到什么程度了?感觉远远落后于 ChatGPT 啊」。对此,马斯克耐心回复说,「我们只用了几个月就完成了其他人花了几年时间的工作。」言下之意似乎是不着急,慢慢打磨新功能。
为了验证各路网友的说法,机器之心在第一时间进行了测试,发现 Grok 在公式 OCR 和梗图理解方面确实表现出色,但对图片中的中文理解的不是很好。
Grok 的未来
Grok 的图像理解能力的提升,标志着大型语言模型发展的新阶段。未来,Grok将会继续学习和进化,不断提升其识图能力,并应用于更多领域。
参考文献
- https://x.com/luismbat/status/1850925670408544355
- https://x.com/ItsZeramy/status/1850810276784054313
- https://x.com/chrisfirsttt/status/1850745853843001418
关键词:Grok,大型语言模型,图像理解,公式 OCR,梗图,ChatGPT,人工智能,数字化转型
作者:机器之心
编辑:机器之心编辑部
Views: 0