2026年4月24日,DeepSeek V4正式发布,其官方技术报告明确将华为昇腾950PR写入硬件验证清单,实现从英伟达CUDA到国产算力的全栈迁移;同日,美团LongCat-2.0-Preview启动开放测试,成为目前唯一公开确认由国产算力完成万亿参数预训练的大模型,训练全程动用5万至6万张国产算力卡,是国产算力上规模最大的训练任务。
两款模型均采用MoE架构,支持1M(100万token)超长上下文窗口,单次推理可处理数百万字输入,知识容量、长文本理解及复杂逻辑推理上限已跨入全球第一梯队。DeepSeek V4通过混合注意力架构(CSA + HCA)、Muon优化器等底层创新,在上下文长度放大8倍前提下,算力消耗比V3.2降低七成以上;LongCat-2.0-Preview每token激活参数约48B,在保持较高性能的同时实现较好推理效率。
DeepSeek V4最新API定价中,V4 Flash每百万tokens输入(缓存命中)为0.02元,V4 Pro为0.025元。两款模型发布引发国产算力适配连锁反应,华为昇腾、百度昆仑芯、寒武纪思元、海光信息DCU、阿里平头哥等国产AI芯片持续迭代,摩尔线程、壁仞科技、沐曦股份等创业企业加速追赶。TrendForce预测,2026年国产芯片在高端市场份额将达70%。
算力替代动因包括美国对华高端AI芯片出口管制持续收紧,以及国内算力需求激增带来的结构性短缺。OpenRouter数据显示,2026年3月30日至4月5日,中国AI模型周调用量达12.96万亿Token,为同期美国的4.3倍。长期依赖单一供应链面临供应受限与价格持续上涨双重风险,国产算力替代已成必答题。
国产替代难点在于软硬件生态薄弱:CUDA拥有超400万开发者及成熟cuBLAS、cuDNN、NCCL库,而国产平台算子库覆盖度、优化深度与测试工具尚不完善;硬件并行方面,单卡性能差距需靠万卡级集群弥补,但万卡训练故障概率呈指数级上升,任何计算误差、通信延迟或数值精度偏差均可能导致训练中断或收敛失败。LongCat-2.0-Preview在5万至6万张国产卡集群上完成稳定训练,验证了国产算力系统工程能力。
美团近年在算力、科技硬件与大模型领域广泛早期投资,覆盖摩尔线程、沐曦股份、紫光展锐、爱芯元智、荣芯半导体等企业,涵盖通用GPU设计、移动通信芯片、边缘AI视觉芯片及晶圆代工。同时投资宇树科技、银河通用、星海图等具身智能与科技硬件公司,构建从芯片设计制造、大模型研发到AI应用的全链条布局。
LongCat-2.0-Preview作为原生国产训练模型,产生完整真实工程反馈,推动国产芯片软硬件协同优化。美团拥有覆盖全国2800多个市县的即时配送网络,无人机累计完成商业订单超78万笔、开通70条航线,无人车完成配送任务550万单、自动驾驶总里程超1900万公里。无人机楼宇避障、无人车复杂路况决策、骑手-机器协同调度等数据,构成高价值真实世界训练养料,亦为国产算力芯片提供严苛环境下的可靠性与能效比验证场景。
DeepSeek V4与LongCat-2.0-Preview同日亮相,分别代表国产算力支撑全球顶尖基础模型的能力,与国产算力集群独立完成极限工程任务的能力。二者共同标志着一条自主的‘国产Token’供应链正在英伟达体系之外加速接通,中国AI产业链正从被动替代转向主动定义、正向循环的演进阶段。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



