旧金山 — 伊隆·马斯克旗下的 xAI 公司于今日正式发布了其最新旗舰大模型 Grok-3。这款备受瞩目的模型一经亮相,便凭借其强大的性能和工程实力,迅速在人工智能领域引发轰动。马斯克在直播中表示,Grok-3 的目标是“理解整个宇宙”,并声称其性能是 Grok-2 的“10 倍”。
Grok-3:算力怪兽,性能卓越
据 xAI 工程师介绍,Grok-3 并非单一模型,而是一个系列。其中,轻量版本 Grok-3 mini 旨在提供更快的响应速度,但牺牲了一定的准确性。目前,并非所有型号都已上线,但预计将从今天开始陆续推出。
Grok-3 的强大性能离不开其背后庞大的算力支持。xAI 透露,他们使用位于孟菲斯的一个数据中心来训练 Grok-3,该数据中心拥有约 20 万块 GPU。令人惊叹的是,这个数据中心仅用 122 天就完成了建造,二期工程还将增加 20 万块 GPU。
有评论指出,Grok-3 消耗的算力是 DeepSeek V3 的 263 倍,足见其“力大砖飞”的特性。
基准测试:排行榜登顶,实力碾压
Grok-3 在各项基准测试中表现出色,证明了其强大的实力。
- Math(AIME 24)、Science(GPQA)和 Coding(LCB Oct-Feb):Grok-3 在这三个方面大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。
- 大模型竞技场 Chatbot Arena(LMSYS):早期 Grok-3 版本的得分达到 1402 分,超越了包括 DeepSeek-R1 在内的所有其他模型,成为首个突破 1400 分的模型。
Andrej Karpathy 在体验 Grok-3 后表示,其水平接近 OpenAI 最强模型(每月 200 美元的 o1-pro)的最先进水平,略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
推理能力:一骑绝尘,解锁测试时计算
Grok-3 具备强大的推理能力,并支持测试时计算(test-time compute),这使其在竞争激烈的推理模型市场中脱颖而出。
在数学(AIME’24)、科学(GPQA)和编码(LCB Oct-Feb)数据集上,Grok-3 的“推理 + 测试时计算”表现均超越了 OpenAI o3 mini (high) 和 o1、DeepSeek R1 和谷歌 Gemini 2 Flash Thinking 等其他推理模型。
DeepSearch:下一代智能体,深度搜索能力
Grok-3 还具备强大的智能体能力,通过深度搜索(DeepSearch)来进行深入研究、头脑风暴、分析数据、生成图像、编写和调试代码。DeepSearch 对标了 OpenAI 推出的深度搜索 Deep Research,旨在通过联网在几十分钟内完成人类专家数小时才能完成的复杂任务。
挑战与展望
尽管 Grok-3 展现出强大的性能和潜力,但其未来的发展仍面临挑战。例如,如何平衡算力消耗与模型效率,以及如何确保模型的安全性和可靠性,都是需要解决的问题。
然而,Grok-3 的发布无疑为人工智能领域注入了新的活力。凭借马斯克及其 xAI 团队强大的工程能力和创新精神,Grok-3 有望在未来成为人工智能领域的重要力量,并推动人工智能技术的进一步发展。
参考文献:
- 机器之心. (2024, February 18). 20万张GPU!马斯克掏出「地表最强」大模型Grok-3,排行榜登顶,复仇OpenAI. https://www.jiqizhixin.com/articles/2024-02-18-12
Views: 0