谷歌发布Gemini 2.5浏览器交互AI模型

谷歌推出Gemini 2.5 Computer Use模型,专用于在浏览器环境中与用户界面交互。该模型具备视觉理解与推理能力,可执行打开网页、输入文本、拖放元素等13种操作,旨在完成如填写表单等需人工操作的任务。

该模型适用于用户界面测试,或操作未提供API的系统。此前已应用于谷歌AI模式中的智能体功能及研究项目“Mariner”,后者可实现根据食材清单自动添加商品至购物车。

此次发布紧随OpenAI在其开发者日推出ChatGPT新应用之后。OpenAI正推进ChatGPT智能体功能,使其能代表用户执行复杂任务;Anthropic公司也已于去年发布支持计算机使用的Claude AI模型。

谷歌展示了该模型运行的演示视频,注明播放速度加快至3倍。公司称其在多个网页和移动端基准测试中优于现有方案。与竞品不同,该模型仅限浏览器环境,未针对桌面操作系统级控制优化。

Gemini 2.5 Computer Use现已通过Google AI Studio和Vertex AI向开发者开放。Browserbase平台提供在线演示,展示模型执行“玩一局2048游戏”或“浏览Hacker News热门讨论”等任务的能力。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1