百度强化多模态大模型布局，数字人或成破局关键- DoNews

百度正加强文心大模型的多模态理解能力。在百度AI Day上，百度集团副总裁吴甜介绍了文心大模型4.5 Turbo和深度思考模型X1 Turbo的技术创新。两款模型实现了文本、图像和视频的混合训练，通过多模态异构专家建模等技术，学习效率提升近2倍，多模态理解效果提高超30%。

文心大模型4.5于今年3月发布，是百度首个原生多模态大模型。4.5 Turbo则在上月推出，速度更快且价格下降80%，每百万token输入价格仅0.8元，输出价格3.2元。

尽管去年百度CEO李彦宏表示不会涉足类似Sora的视频生成模型，但竞争对手字节跳动与阿里巴巴已相继推出多模态大模型，并受到市场关注。这意味着百度在多模态领域存在误判，布局较晚。

今年年初，外界质疑百度是否再次陷入“起个大早，赶个晚集”的困境。虽然百度早在2021年就发布了文心大模型，但未能保持先发优势，在开源、降价及多模态方面出现偏差。今年6月，文心大模型4.5系列将正式开源；同时，主力模型大幅降价。

然而，当前竞争焦点已转向深度推理与视觉推理能力。百度积极弥补短板，文心大模型4.5 Turbo的多模态能力与GPT 4.1持平，能处理音视频内容；X1 Turbo具备跨工具调用能力，整合外部资源完成复杂任务。

针对幻觉问题，百度研发了自反馈增强技术框架，显著降低幻觉并提升复杂任务处理能力。李彦宏也强调，DeepSeek虽强大，但缺乏多媒体生成能力，而多模态大模型正是客户需求所在。

百度布局多模态大模型还承载了对AI应用的期待。李彦宏认为，AI模型需有明确用途，真正统治世界的是应用而非模型。他认为AI数字人是突破性应用，具有巨大商业潜力。

百度已研制“剧本”驱动多模协同的超拟真数字人技术，支持超过10万数字人主播，直播转化率达31%，开播成本降低80%。不过，部分商家尝试数字人直播后发现效果不佳，引发投诉。

尽管如此，百度仍积极推进数字人业务。百度与罗永浩合作打造数字人形象用于直播带货，并计划于5月23日开启首场直播。这场直播的表现或将影响商家对数字人直播的态度，其长期商业价值仍有待观察。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。