DoNews1月22日消息,今天,在百度文心Moment大会现场,文心大模型5.0正式版上线。

文心大模型5.0正式版参数达2.4万亿,采用原生全模态统一建模技术,具备全模态理解与生成能力,支持文本、图像、音频、视频等多种信息的输入与输出。

在40余项权威基准的综合评测中,文心5.0正式版的语言与多模态理解能力稳居国际第一梯队。图像与视频生成能力与垂直领域专精模型相当,整体处于全球领先水平。
目前,用户可在文心APP、文心一言官网体验,企业与开发者可通过百度千帆平台进行调用。
原生全模态大模型 文心5.0正式版上线
百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜介绍,与业界多数采用“后期融合”的多模态方案不同,文心5.0的技术路线采用统一的自回归架构进行原生全模态建模,将文本、图像、视频、音频等多源数据在同一模型框架中进行联合训练,使得多模态特征在统一架构下充分融合并协同优化,实现原生的全模态统一理解与生成。

此外,文心5.0采用超大规模混合专家结构,具备超稀疏激活参数,激活参数比低于 3%,在保持模型强大能力的同时,有效提升推理效率。
同时,基于大规模工具环境,合成长程任务轨迹数据,并采用基于思维链和行动链的端到端多轮强化学习训练,显著提升了模型的智能体和工具调用能力。
得益于原生全模态建模,文心5.0在多模理解、代码、创意写作等能力上实现显著突破。
跑得稳、答得对、用得起 文心应用模型深入千行百业
百度应用模型研发部负责人贾磊分享了文心应用模型的最新进展。他指出,应用模型的价值不在模型里,而在应用里,希望让模型在真实应用场景里“跑得稳、答得对、用得起”。
基于文心基础大模型,百度构建了矩阵模型和专精模型。矩阵模型面向产品级应用和通用场景快速落地,包括文心Lite模型、视频大模型和语音大模型;专精模型面向行业应用和垂直场景,包括搜索闪电专精模型、电商蒸汽机模型、文心数字人大模型及行业大模型。

贾磊现场分享了三项技术突破:基于声音 Token 的端到端合成大模型、5分钟超越真人的直播技术、实时交互数字人技术。
其中,实时交互数字人技术采用三态Token联动架构,实现文本、语音、视频的流式控制,突破传统数字人三个模态串联的制作模式。在此基础上,系统自动完成动作衔接、动作编排与状态重组,并由声音Token实时驱动表情与口型,输出三态合一的视频流,具有低延迟、低成本和高表现力的特点,百度罗永浩数字人即是基于这项技术开发。
文心5.0正式版上线百度千帆平台
会上,百度千帆平台产品负责人张婷介绍,百度千帆平台已支持企业用户和开发者便捷调用文心5.0正式版。

百度千帆Agent Infra提供了模型、工具、Agent开发、数据及Agent运行环境等五个层面的能力,帮助企业和开发者低门槛打造好用的Agent。
模型层面|百度千帆提供包括文心5.0正式版在内的全场景150+SOTA模型服务。同时针对Agent场景,提供精准的思维链控制等大模型增强服务。
工具服务|百度千帆将百度沉淀多年的成熟AI能力,如百度AI搜索、百度地图、百度文库、百度网盘等通过MCP协议开放,并引入覆盖出行、支付等企业级高频需求的优质第三方MCP能力。
Agent开发服务|千帆凝聚百度工程师实际项目经验,开放企业级深度研究Agent(Deep Research)等多款官方应用。
数据服务|通过百度千帆数据智能平台,企业可将非结构化数据转化为模型可理解的信息。通过多模态数据统一管理及算力混合调度,数据处理提效达6倍,计算降本30%。
Agent运行环境|此外,千帆提供了完善的资源部署、权限管理及高可用监控工具链,确保智能体在业务场景中稳定运行。

目前,千帆平台上已累计开发超130万个Agents。



