蚂蚁数科智能体全球评测登顶第一- DoNews

DoNews > 公司新闻 > 蚂蚁数科智能体全球评测登顶第一

蚂蚁数科智能体全球评测登顶第一

推荐 2025-09-26 16:55:03

9月26日，据全球权威评测基准BIRD-Bench官网显示，蚂蚁数科的数据分析智能体Agentar-SQL在执行准确率（81.67分）和执行效率（77分）两项榜单中均位居全球第一，超越AT&T、谷歌云、腾讯云、阿里云等企业。

BIRD-Bench是全球公认的自然语言转SQL最高标准评测基准，要求AI模型将自然语言查询转化为可在真实复杂的大规模生产级数据库中稳定执行的SQL语句。其数据集覆盖金融、电力、医疗等37个行业场景，总量达33GB，包含超过1万条高复杂度查询任务，被全球顶级AI团队广泛采用。

这是中国公司在该榜单上取得的历史最高排名。Agentar-SQL基于蚂蚁数科自研的SQL大模型Agentar-Scale-SQL构建，支持用户通过自然语言完成复杂数据查询。该智能体采用GSPO（组序列策略优化）强化学习训练方法，增强SQL生成过程中的逻辑推理能力，减少潜在错误。

Agentar-SQL具备多轮反思修正机制，可对生成的SQL进行多次审视与调整，提升准确性。同时采用两阶段生成法：首先生成多个候选SQL，再通过“锦标赛”式两两比对方式筛选最优结果。

蚂蚁数科在AI大模型领域持续投入，其金融推理大模型Agentar-Fin-R1在多项主流金融基准测试中表现领先。此外，专为新能源行业研发的能源电力垂类时序大模型，在发电量预测准确率方面超过谷歌TimesFM-V2.0、亚马逊Chronos-Large等通用时序模型。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

智慧再进化，豪华启新境：问界全系车型登陆天津车展 2025天津车展启幕：问界全系产品阵列诠释“新豪华”出行美学

广汽本田拟收购东风本田发动机公司广汽本田拟11.72亿元收购东风本田发动机50%股权，实现全资控股，提升供应链自主性与运营效率，助力电动化转型。

打破传统豪华车壁垒，50万级SUV市场问界M9为何如此保值？销量长红、高保值率，基于超强产品力。

涪陵榨菜陷瓶颈：乌江榨菜卖不动，拓新品难破局你还吃榨菜吗？

快手发全员信：电商、本地及商业化迎来调整快手调整商业生态架构，本地生活部更名为生活服务部并整合广告业务，刘逍接任负责人；电商与商业化业务重组，笑古转任顾问。

西普尼精密今日港交所上市，市值达62亿港元西普尼精密在港交所上市，发行价29.6港元，首日大涨251%，市值达62亿港元，主营贵金属手表与饰品，近年营收利润稳步增长。

紫金黄金今日香港上市，市值超3000亿港元紫金黄金在港交所上市，发行价71.59港元，募资244.7亿港元，开盘涨55.7%，市值超3000亿。公司专注海外黄金矿产，2025年上半年利润同比增125.6%。

聚芯微港交所IPO：上半年营收4亿元聚芯微电子拟港交所上市，2024年营收6.67亿元，经调整净利7107万元，智能音频与光学感知为主力业务。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号