豆包上线视频通话功能实现AI生活化场景交互- DoNews

豆包移动端全量推出视频通话功能，支持用户通过摄像头与AI进行实时视觉交互。该功能允许AI基于画面内容主动发起对话，无需预先构思提问，显著降低使用门槛。

在室内测试中，用户持手机环顾房间，豆包根据视觉识别与交互问答，迅速定位遗失的近视眼镜并告知具体位置；随后对家中边境牧羊犬进行品种识别，并准确解释其‘玩耍邀请姿势’等行为语言，结合动物行为心理学给出即时分析。

用户进一步测试宠物行为分析能力，涵盖小猫等其他动物，验证其跨物种识别与知识调用的一致性。海淘包裹到货后，豆包指导用户通过包装印刷质量、批次号清晰度及官网验证等方式鉴别真伪，提供结构化鉴假步骤。

在室外环境中，豆包依托视觉线索完成地理位置推理：依据‘北京’‘烤匠’‘朝阳’等语音提示及商场视觉特征，准确识别出测试地点为朝阳大悦城，并随即切换为本地生活助手角色，在用户驻足奶茶店时，基于店内菜单实时推荐招牌饮品。

测试发现，室外环境存在明显语音识别干扰，汽车鸣笛、路人交谈及商铺音响导致豆包频繁误判语音输入来源，影响应答连续性与准确性。相较之下，室内安静环境下多模态交互稳定性更高。

交互过程未发生显式功能切换，所有响应均基于实时画面与自然语言联合理解生成。豆包融合视觉识别、知识检索、行为建模与本地信息推理能力，实现找物、识宠、鉴物、导览等多任务无缝衔接。一位72岁外公在远程指导下，数分钟内即完成首次视频对话操作，印证该交互方式对既有用户习惯的高度兼容性。

该功能自2025年12月启动内测，经两次迭代后于近期全量上线。其核心逻辑转向以用户生活动作为中心，技术响应嵌入真实场景褶皱，而非要求用户适配技术范式。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。