马斯克团队开源Grok-2:9050亿参数+128k上下文

马斯克旗下xAI团队正式开源Grok-2,该模型于2024年完成训练,体积超过500GB,其混合专家(MoE)架构在Grok-1基础上进行了改进。

xAI宣布向所有用户开源Grok-2的模型权重模型架构。马斯克还预告,Grok-3将在6个月后开源。

Grok-2开源版本技术特点包括:总参数量高达9050亿(905B),推理时每次激活其中的1360亿(136B)参数;支持高达131,072 (128k) token的上下文长度,可一次性阅读和处理相当于一本200多页的书的内容;采用混合专家架构(MoE),可在不增加巨大计算成本前提下提升模型规模和能力;预训练数据覆盖大量文本和代码,截止到2024年初。

关于开源权限,仅当关联公司年收入低于一百万美元时,才可用于商业用途。超过此门槛的商业用途需获得xAI单独许可。除非协议条款允许,否则不得使用材料、衍生品或输出(包括生成的数据)来训练、创建或改进任何基础、大型语言或通用人工智能模型。

目前Grok-2已在Hugging Face上提供下载。部署建议通过SGLang进行,下载权重文件后可使用指定命令启动推理服务器。该模型需要8张显存大于40GB的GPU运行。

xAI团队在人工智能发展方面展现惊人速度,有网友指出其位于孟菲斯的巨像数据中心仅用122天建成并全面投入运营,配备100,000块英伟达H100 GPU。黄仁勋曾评价这是「超人」之举,只有马斯克能做到。

马斯克此前在Grok 4发布会上预告了下一步路线图:8月发布编码模型,9月发布多模态智能体,10月发布视频生成模型。xAI模型能快速迭代主要得益于强大的超算中心支持,预计5年内将打造出5000块H100规模的巨无霸超算。

马斯克表示,xAI很快就能超越谷歌以外的所有对手,就连谷歌,超过它也只是时间问题。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1