马斯克发布Grok 4大模型 年费最高达3000美元

北京时间2025年7月11日中午12点左右,xAI发布了下一代大模型Grok 4。马斯克在直播中表示这是世界上最强的AI,并进行了展示。

马斯克指出,Grok 4可以在无需事先查看题目的情况下,在SAT考试(美国高考)中获得满分,并在GRE任何学科测试中接近满分,超过全世界所有研究生的水平。他强调Grok 4已经实现了超越人类的推理能力,预计今年内可实现科学新发现。

技术方面,Grok 4的推理能力相较前代提升了10倍。从Grok 2到Grok 4,采用的技术范式依次为下一个token预测、预训练计算、预训练 + RL、RL计算。其中,Grok 3在预训练阶段的计算量提升了10倍,首次引入了RL微调以增强深度推理能力。Grok 4 reasoning进一步通过强化学习提升了10倍的计算量,显著增强了推理能力。

基准测试结果显示,Grok 4在各类高难度Benchmark上远超SOTA成绩。在HLE(Humanities Last Exam,人类最后的考试)基准测试中,使用工具后Grok 4的成绩为38.6%,Grok 4 Heavy达到44.4%。如果让模型花费更多时间思考并恰当使用外部工具,HLE分数还能提升至50.7%。

其他基准测试结果包括GPQA(研究生级别的Google验证问答基准测试)、AIME25(美国数学竞赛邀请赛)、LCB(Jan-May)(编程竞赛/在线算法竞赛)、HMMT25(高中生团队数学竞赛)和USAMO25(美国顶尖高中生数学竞赛)。Grok 4 Heavy均取得了最新SOTA。

此外,Grok 4在通用推理能力评估平台ARC-AGI上同样取得最新SOTA,其中在ARC-AGI-2上达到15.9%,几乎将之前的商业SOTA翻了一番,并超越当前Kaggle竞赛SOTA。

在Vending-Bench基准测试中,Grok 4聚焦于评估智能体在真实物理世界中执行复杂操作任务的能力,解决了传统模拟环境与真实世界间的“Sim2Real Gap”问题。测试结果显示,Grok 4的表现优于Claude Opus 4、Human、Gemini 2.5 Pro、o3。

Grok 4可通过API调用,提供256K tokens的上下文窗口,目前已经开放使用,版本号为grok-4-0709,价格与Grok 3相同。根据Artificial Analysis的测试,xAI的API以每秒75个token的速度提供服务,速度虽不及o3(每秒188个token),但优于Claude 4 Opus Thinking(每秒66个token)。

Grok 4还展示了其多模态能力。例如,它成功生成了一个基于物理原理的HTML动画,模拟两个黑洞碰撞并产生引力波的30秒可视化效果。动图的一边呈现了推理过程、计算步骤和相关论文链接。

语音能力方面,Grok 4相较上代速度快了2倍,端到端延迟更低,支持5种语音,单日用户总停留时长提升了10倍。新增角色Eve和Sal现已可在iOS版Grok中使用,Sal支持多种性格,Eve能够唱歌和低语。

游戏开发能力也得到了验证。开发者DannyLimanseta在4小时内利用Grok 4制作了一款FPS射击游戏,该模型不仅能用于制作游戏,还能实际运行游戏,洞察优秀游戏要素并提出改进建议。

目前,Grok 4已上线,需付费使用。付费模式分为年付和月付两种,其中SuperGrok年费300美元(约2154元人民币),SuperGrok Heavy年费3000美元(约21540元人民币)。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1