豆包1.5新增GUI Agent能力,可多端完成复杂任务

5月13日,火山引擎发布豆包1.5·视觉深度思考模型。该模型激活参数20B,具备多模态理解和推理能力,在60个评测基准中表现优异。其新增GUI Agent能力,可在PC端和手机端完成复杂交互任务,如自动化检测APP功能。此外,模型支持视频动态帧率采样,增强时序定位能力,并通过强化学习提升视觉推理水平,已应用于字节跳动多款产品开发测试中。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1