DeepSeek V4与LongCat-2.0同日发布，国产算力首次支撑万亿参数大模型全栈训练- DoNews

2026年4月24日，DeepSeek V4正式发布，其官方技术报告明确将华为昇腾950PR写入硬件验证清单，实现从英伟达CUDA到国产算力的全栈迁移；同日，美团LongCat-2.0-Preview启动开放测试，成为目前唯一公开确认由国产算力完成万亿参数预训练的大模型，训练全程动用5万至6万张国产算力卡，是国产算力上规模最大的训练任务。

两款模型均采用MoE架构，支持1M（100万token）超长上下文窗口，单次推理可处理数百万字输入，知识容量、长文本理解及复杂逻辑推理上限已跨入全球第一梯队。DeepSeek V4通过混合注意力架构（CSA + HCA）、Muon优化器等底层创新，在上下文长度放大8倍前提下，算力消耗比V3.2降低七成以上；LongCat-2.0-Preview每token激活参数约48B，在保持较高性能的同时实现较好推理效率。

DeepSeek V4最新API定价中，V4 Flash每百万tokens输入（缓存命中）为0.02元，V4 Pro为0.025元。两款模型发布引发国产算力适配连锁反应，华为昇腾、百度昆仑芯、寒武纪思元、海光信息DCU、阿里平头哥等国产AI芯片持续迭代，摩尔线程、壁仞科技、沐曦股份等创业企业加速追赶。TrendForce预测，2026年国产芯片在高端市场份额将达70%。

算力替代动因包括美国对华高端AI芯片出口管制持续收紧，以及国内算力需求激增带来的结构性短缺。OpenRouter数据显示，2026年3月30日至4月5日，中国AI模型周调用量达12.96万亿Token，为同期美国的4.3倍。长期依赖单一供应链面临供应受限与价格持续上涨双重风险，国产算力替代已成必答题。

国产替代难点在于软硬件生态薄弱：CUDA拥有超400万开发者及成熟cuBLAS、cuDNN、NCCL库，而国产平台算子库覆盖度、优化深度与测试工具尚不完善；硬件并行方面，单卡性能差距需靠万卡级集群弥补，但万卡训练故障概率呈指数级上升，任何计算误差、通信延迟或数值精度偏差均可能导致训练中断或收敛失败。LongCat-2.0-Preview在5万至6万张国产卡集群上完成稳定训练，验证了国产算力系统工程能力。

美团近年在算力、科技硬件与大模型领域广泛早期投资，覆盖摩尔线程、沐曦股份、紫光展锐、爱芯元智、荣芯半导体等企业，涵盖通用GPU设计、移动通信芯片、边缘AI视觉芯片及晶圆代工。同时投资宇树科技、银河通用、星海图等具身智能与科技硬件公司，构建从芯片设计制造、大模型研发到AI应用的全链条布局。

LongCat-2.0-Preview作为原生国产训练模型，产生完整真实工程反馈，推动国产芯片软硬件协同优化。美团拥有覆盖全国2800多个市县的即时配送网络，无人机累计完成商业订单超78万笔、开通70条航线，无人车完成配送任务550万单、自动驾驶总里程超1900万公里。无人机楼宇避障、无人车复杂路况决策、骑手-机器协同调度等数据，构成高价值真实世界训练养料，亦为国产算力芯片提供严苛环境下的可靠性与能效比验证场景。

DeepSeek V4与LongCat-2.0-Preview同日亮相，分别代表国产算力支撑全球顶尖基础模型的能力，与国产算力集群独立完成极限工程任务的能力。二者共同标志着一条自主的‘国产Token’供应链正在英伟达体系之外加速接通，中国AI产业链正从被动替代转向主动定义、正向循环的演进阶段。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。