9月26日,据全球权威评测基准BIRD-Bench官网显示,蚂蚁数科的数据分析智能体Agentar-SQL在执行准确率(81.67分)和执行效率(77分)两项榜单中均位居全球第一,超越AT&T、谷歌云、腾讯云、阿里云等企业。
BIRD-Bench是全球公认的自然语言转SQL最高标准评测基准,要求AI模型将自然语言查询转化为可在真实复杂的大规模生产级数据库中稳定执行的SQL语句。其数据集覆盖金融、电力、医疗等37个行业场景,总量达33GB,包含超过1万条高复杂度查询任务,被全球顶级AI团队广泛采用。
这是中国公司在该榜单上取得的历史最高排名。Agentar-SQL基于蚂蚁数科自研的SQL大模型Agentar-Scale-SQL构建,支持用户通过自然语言完成复杂数据查询。该智能体采用GSPO(组序列策略优化)强化学习训练方法,增强SQL生成过程中的逻辑推理能力,减少潜在错误。
Agentar-SQL具备多轮反思修正机制,可对生成的SQL进行多次审视与调整,提升准确性。同时采用两阶段生成法:首先生成多个候选SQL,再通过“锦标赛”式两两比对方式筛选最优结果。
蚂蚁数科在AI大模型领域持续投入,其金融推理大模型Agentar-Fin-R1在多项主流金融基准测试中表现领先。此外,专为新能源行业研发的能源电力垂类时序大模型,在发电量预测准确率方面超过谷歌TimesFM-V2.0、亚马逊Chronos-Large等通用时序模型。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。