在FORCE LINK AI创新巡展上海站上,火山引擎正式推出豆包1.5・视觉深度思考模型。该模型凭借仅20B的激活参数,在60个公开评测基准中斩获38项SOTA成绩,展现出卓越的多模态理解与推理能力。
该模型创新性地采用动态帧率采样技术,显著提升了视频时序定位精度,配合向量搜索功能,可实现视频内容的精准检索与分析。通过数万亿多模态数据训练,模型还具备深度视觉思考能力,能自主完成假设推理与验证的完整认知闭环。
特别引人注目的是其新增的GUI Agent功能,可跨平台执行App自动化检测等复杂交互任务。目前该模型已在火山方舟平台上线,并在字节跳动多款产品测试中投入实际应用。