5月29日,英伟达联合香港理工大学、南京大学等机构发布LocateAnything视觉语言定位模型。该模型专为机器人感知与AI Agent实时交互设计,支持从图像或截图中高速、精准定位指定对象并输出检测框。其核心采用Parallel Box Decoding技术,实现单步预测边界框坐标,在H100 GPU上达12.7框/秒。模型提供Fast、Slow与Hybrid三种运行模式,并基于1200万图像、1.38亿语言查询构建大规模训练数据集。实测在LVIS、ScreenSpot-Pro等基准上显著超越Qwen3-VL和Rex-Omni。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



