国内AI视频交互赛道再添重要玩家。近日,字节跳动旗下AI智能助手“豆包”App上线视频通话功能,支持基于视觉推理模型的实时视频聊天问答。
官方介绍显示,该功能具备联网搜索能力,能够识别水果成熟度、记忆物品位置并进行逻辑推理等。通过实测发现,豆包在挑选水果、识别物品和推荐书籍等任务中表现出色,展现了其持续记忆和连贯互动性能。
5月27日,一位大模型算法工程师表示,豆包的视频理解与语音交互能力处于中文语境中的第一梯队。去年12月,火山引擎总裁谭待发布了豆包视觉理解模型,强调其内容识别、推理及创作能力。
豆包团队展示了该功能在公园花草识别、博物馆讲解、图书馆书籍推荐以及买菜食材搭配等多个生活场景的应用。测试结果显示,豆包可以快速识别木瓜成熟度,并记忆书桌上的物品信息,还能结合实时搜索为用户提供书籍相关内容。
AI视频交互领域近年来发展迅速。2024年8月,“智谱清言”率先在国内推出面向消费者的视频通话功能。国际市场上,OpenAI的GPT-4o和谷歌的Project Astra也相继展示了实时视觉交互能力。
专家认为,视频通话功能的实现标志着AI从“听见”到“看见”的进化。这种多模态能力降低了用户使用门槛,同时为复杂任务处理提供了新可能。然而,AI智能助手的快速扩张已进入瓶颈期,新的交互模式成为关键。
数据显示,4月份Web端AI智能助手总访问量首次下降,表明尝鲜驱动的扩张阶段可能结束。而豆包通过接入抖音生态,正在加速触达更多用户。
知名经济学者盘和林指出,豆包依托庞大的应用生态,扩散速度可能快于竞争对手。他认为,豆包可与剪映集成,结合抖音内容审核AI,用于发现违规短视频内容。他还提到,AI视频交互前景广阔,如生成虚拟人直播或快速归纳总结视频文件。
此外,AI眼镜等硬件设备的兴起也为视频交互带来了新机遇。盘和林表示,尽管当前AI眼镜存在算力和显示技术缺陷,但未来有望实现更深层次融合。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。