字节跳动豆包上线视频通话功能，展现多模态AI技术实力- DoNews

国内AI视频交互赛道再添重要玩家。近日，字节跳动旗下AI智能助手“豆包”App上线视频通话功能，支持基于视觉推理模型的实时视频聊天问答。

官方介绍显示，该功能具备联网搜索能力，能够识别水果成熟度、记忆物品位置并进行逻辑推理等。通过实测发现，豆包在挑选水果、识别物品和推荐书籍等任务中表现出色，展现了其持续记忆和连贯互动性能。

5月27日，一位大模型算法工程师表示，豆包的视频理解与语音交互能力处于中文语境中的第一梯队。去年12月，火山引擎总裁谭待发布了豆包视觉理解模型，强调其内容识别、推理及创作能力。

豆包团队展示了该功能在公园花草识别、博物馆讲解、图书馆书籍推荐以及买菜食材搭配等多个生活场景的应用。测试结果显示，豆包可以快速识别木瓜成熟度，并记忆书桌上的物品信息，还能结合实时搜索为用户提供书籍相关内容。

AI视频交互领域近年来发展迅速。2024年8月，“智谱清言”率先在国内推出面向消费者的视频通话功能。国际市场上，OpenAI的GPT-4o和谷歌的Project Astra也相继展示了实时视觉交互能力。

专家认为，视频通话功能的实现标志着AI从“听见”到“看见”的进化。这种多模态能力降低了用户使用门槛，同时为复杂任务处理提供了新可能。然而，AI智能助手的快速扩张已进入瓶颈期，新的交互模式成为关键。

数据显示，4月份Web端AI智能助手总访问量首次下降，表明尝鲜驱动的扩张阶段可能结束。而豆包通过接入抖音生态，正在加速触达更多用户。

知名经济学者盘和林指出，豆包依托庞大的应用生态，扩散速度可能快于竞争对手。他认为，豆包可与剪映集成，结合抖音内容审核AI，用于发现违规短视频内容。他还提到，AI视频交互前景广阔，如生成虚拟人直播或快速归纳总结视频文件。

此外，AI眼镜等硬件设备的兴起也为视频交互带来了新机遇。盘和林表示，尽管当前AI眼镜存在算力和显示技术缺陷，但未来有望实现更深层次融合。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。