豆包上线视频通话功能 实现AI生活化场景交互

豆包移动端全量推出视频通话功能,支持用户通过摄像头与AI进行实时视觉交互。该功能允许AI基于画面内容主动发起对话,无需预先构思提问,显著降低使用门槛。

在室内测试中,用户持手机环顾房间,豆包根据视觉识别与交互问答,迅速定位遗失的近视眼镜并告知具体位置;随后对家中边境牧羊犬进行品种识别,并准确解释其‘玩耍邀请姿势’等行为语言,结合动物行为心理学给出即时分析。

用户进一步测试宠物行为分析能力,涵盖小猫等其他动物,验证其跨物种识别与知识调用的一致性。海淘包裹到货后,豆包指导用户通过包装印刷质量、批次号清晰度及官网验证等方式鉴别真伪,提供结构化鉴假步骤。

在室外环境中,豆包依托视觉线索完成地理位置推理:依据‘北京’‘烤匠’‘朝阳’等语音提示及商场视觉特征,准确识别出测试地点为朝阳大悦城,并随即切换为本地生活助手角色,在用户驻足奶茶店时,基于店内菜单实时推荐招牌饮品。

测试发现,室外环境存在明显语音识别干扰,汽车鸣笛、路人交谈及商铺音响导致豆包频繁误判语音输入来源,影响应答连续性与准确性。相较之下,室内安静环境下多模态交互稳定性更高。

交互过程未发生显式功能切换,所有响应均基于实时画面与自然语言联合理解生成。豆包融合视觉识别、知识检索、行为建模与本地信息推理能力,实现找物、识宠、鉴物、导览等多任务无缝衔接。一位72岁外公在远程指导下,数分钟内即完成首次视频对话操作,印证该交互方式对既有用户习惯的高度兼容性。

该功能自2025年12月启动内测,经两次迭代后于近期全量上线。其核心逻辑转向以用户生活动作为中心,技术响应嵌入真实场景褶皱,而非要求用户适配技术范式。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1