百度强化多模态大模型布局,数字人或成破局关键

百度正加强文心大模型的多模态理解能力。在百度AI Day上,百度集团副总裁吴甜介绍了文心大模型4.5 Turbo和深度思考模型X1 Turbo的技术创新。两款模型实现了文本、图像和视频的混合训练,通过多模态异构专家建模等技术,学习效率提升近2倍,多模态理解效果提高超30%。

文心大模型4.5于今年3月发布,是百度首个原生多模态大模型。4.5 Turbo则在上月推出,速度更快且价格下降80%,每百万token输入价格仅0.8元,输出价格3.2元。

尽管去年百度CEO李彦宏表示不会涉足类似Sora的视频生成模型,但竞争对手字节跳动与阿里巴巴已相继推出多模态大模型,并受到市场关注。这意味着百度在多模态领域存在误判,布局较晚。

今年年初,外界质疑百度是否再次陷入“起个大早,赶个晚集”的困境。虽然百度早在2021年就发布了文心大模型,但未能保持先发优势,在开源、降价及多模态方面出现偏差。今年6月,文心大模型4.5系列将正式开源;同时,主力模型大幅降价。

然而,当前竞争焦点已转向深度推理与视觉推理能力。百度积极弥补短板,文心大模型4.5 Turbo的多模态能力与GPT 4.1持平,能处理音视频内容;X1 Turbo具备跨工具调用能力,整合外部资源完成复杂任务。

针对幻觉问题,百度研发了自反馈增强技术框架,显著降低幻觉并提升复杂任务处理能力。李彦宏也强调,DeepSeek虽强大,但缺乏多媒体生成能力,而多模态大模型正是客户需求所在。

百度布局多模态大模型还承载了对AI应用的期待。李彦宏认为,AI模型需有明确用途,真正统治世界的是应用而非模型。他认为AI数字人是突破性应用,具有巨大商业潜力。

百度已研制“剧本”驱动多模协同的超拟真数字人技术,支持超过10万数字人主播,直播转化率达31%,开播成本降低80%。不过,部分商家尝试数字人直播后发现效果不佳,引发投诉。

尽管如此,百度仍积极推进数字人业务。百度与罗永浩合作打造数字人形象用于直播带货,并计划于5月23日开启首场直播。这场直播的表现或将影响商家对数字人直播的态度,其长期商业价值仍有待观察。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1