5月13日,火山引擎发布豆包1.5·视觉深度思考模型。该模型激活参数20B,具备多模态理解和推理能力,在60个评测基准中表现优异。其新增GUI Agent能力,可在PC端和手机端完成复杂交互任务,如自动化检测APP功能。此外,模型支持视频动态帧率采样,增强时序定位能力,并通过强化学习提升视觉推理水平,已应用于字节跳动多款产品开发测试中。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。
5月13日,火山引擎发布豆包1.5·视觉深度思考模型。该模型激活参数20B,具备多模态理解和推理能力,在60个评测基准中表现优异。其新增GUI Agent能力,可在PC端和手机端完成复杂交互任务,如自动化检测APP功能。此外,模型支持视频动态帧率采样,增强时序定位能力,并通过强化学习提升视觉推理水平,已应用于字节跳动多款产品开发测试中。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。