文心大模型5.0正式版上线- DoNews

DoNews1月22日消息，今天，在百度文心Moment大会现场，文心大模型5.0正式版上线。

文心大模型5.0正式版参数达2.4万亿，采用原生全模态统一建模技术，具备全模态理解与生成能力，支持文本、图像、音频、视频等多种信息的输入与输出。

在40余项权威基准的综合评测中，文心5.0正式版的语言与多模态理解能力稳居国际第一梯队。图像与视频生成能力与垂直领域专精模型相当，整体处于全球领先水平。

目前，用户可在文心APP、文心一言官网体验，企业与开发者可通过百度千帆平台进行调用。

原生全模态大模型文心5.0正式版上线

百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜介绍，与业界多数采用“后期融合”的多模态方案不同，文心5.0的技术路线采用统一的自回归架构进行原生全模态建模，将文本、图像、视频、音频等多源数据在同一模型框架中进行联合训练，使得多模态特征在统一架构下充分融合并协同优化，实现原生的全模态统一理解与生成。

此外，文心5.0采用超大规模混合专家结构，具备超稀疏激活参数，激活参数比低于 3%，在保持模型强大能力的同时，有效提升推理效率。

同时，基于大规模工具环境，合成长程任务轨迹数据，并采用基于思维链和行动链的端到端多轮强化学习训练，显著提升了模型的智能体和工具调用能力。

得益于原生全模态建模，文心5.0在多模理解、代码、创意写作等能力上实现显著突破。

跑得稳、答得对、用得起文心应用模型深入千行百业

百度应用模型研发部负责人贾磊分享了文心应用模型的最新进展。他指出，应用模型的价值不在模型里，而在应用里，希望让模型在真实应用场景里“跑得稳、答得对、用得起”。

基于文心基础大模型，百度构建了矩阵模型和专精模型。矩阵模型面向产品级应用和通用场景快速落地，包括文心Lite模型、视频大模型和语音大模型；专精模型面向行业应用和垂直场景，包括搜索闪电专精模型、电商蒸汽机模型、文心数字人大模型及行业大模型。

贾磊现场分享了三项技术突破：基于声音 Token 的端到端合成大模型、5分钟超越真人的直播技术、实时交互数字人技术。

其中，实时交互数字人技术采用三态Token联动架构，实现文本、语音、视频的流式控制，突破传统数字人三个模态串联的制作模式。在此基础上，系统自动完成动作衔接、动作编排与状态重组，并由声音Token实时驱动表情与口型，输出三态合一的视频流，具有低延迟、低成本和高表现力的特点，百度罗永浩数字人即是基于这项技术开发。

文心5.0正式版上线百度千帆平台

会上，百度千帆平台产品负责人张婷介绍，百度千帆平台已支持企业用户和开发者便捷调用文心5.0正式版。

百度千帆Agent Infra提供了模型、工具、Agent开发、数据及Agent运行环境等五个层面的能力，帮助企业和开发者低门槛打造好用的Agent。

模型层面｜百度千帆提供包括文心5.0正式版在内的全场景150+SOTA模型服务。同时针对Agent场景，提供精准的思维链控制等大模型增强服务。

工具服务｜百度千帆将百度沉淀多年的成熟AI能力，如百度AI搜索、百度地图、百度文库、百度网盘等通过MCP协议开放，并引入覆盖出行、支付等企业级高频需求的优质第三方MCP能力。

Agent开发服务｜千帆凝聚百度工程师实际项目经验，开放企业级深度研究Agent（Deep Research）等多款官方应用。

数据服务｜通过百度千帆数据智能平台，企业可将非结构化数据转化为模型可理解的信息。通过多模态数据统一管理及算力混合调度，数据处理提效达6倍，计算降本30%。

Agent运行环境｜此外，千帆提供了完善的资源部署、权限管理及高可用监控工具链，确保智能体在业务场景中稳定运行。

目前，千帆平台上已累计开发超130万个Agents。