智能体重构金融业:AI厂商如何“造锤找钉”?

撰文 | 李信马

题图 | DoNews制作

不久前,国务院印发了《关于深入实施“人工智能+”行动的意见》(下文简称“《意见》”),其中,“智能体”一词被反复提到。

比如在总体要求中提到,到2027年和2030年,新一代智能终端、智能体等应用普及率分别超70%和90%,到2035年,我国全面步入智能经济和智能社会发展新阶段。《意见》中还进一步提到:“在软件、信息、金融、商务、法律、交通、物流、商贸等领域,推动新一代智能终端、智能体等广泛应用。”

还有在优化应用发展环境方面:“培育人工智能应用服务商,发展‘模型即服务’、‘智能体即服务’等,打造人工智能应用服务链。”

“智能体”的英文是“Agent”,早在上世纪有关人工智能的学术探讨中就已出现。但当下的“智能体”概念,却是大模型兴起后的“旧瓶装新酒”。中国信息通信研究院不久前发布的《智能体技术和应用研究报告(2025年)》中,定义“智能体通常是指能够感知环境、理解指令、规划决策、执行任务的软件系统或硬件实体”。 

理论上,具身智能也是智能体的一种形态 制图:DoNews

2025年,“智能体”的概念开始爆火,在不久前的世界人工智能大会(下文简称“WAIC”)上,相关的产品和发布几乎与具身智能平分秋色。启明创投主管合伙人周志峰在演讲中曾表示,智能体的爆火,根本原因是基础模型能力提升:“上下文窗口更大、能使用外部工具,核心还是‘推理能力’的增强。现在甚至出现了‘智能体的摩尔定律’——任务处理复杂度每七个月翻一倍。”

而直接原因,就是年初DeepSeek V3/R1 模型的发布,将推理成本大幅降低至当时OpenAI对应模型的5%。之后全球的主流大模型陆续跟进,推理成本差不多降到了去年同期的1/100。在启明创投对人工智能未来的十大展望中,智能体就占到了两个:

未来12-24个月,Agent形态将从“工具辅助”走向“任务承接”,首批真正意义上的“AI员工”将进入企业,广泛参与客户服务、销售、运营、研发等核心流程,不再仅作为助手存在,而是具备协同作业、主动反馈、承担OKR等能力,推动从成本工具向价值创造转变。

多模态Agent将不断走向实用化,能够融合视觉、语音、传感器等多源输入,进行复杂推理、工具调用与任务执行,在医疗、金融、法律等行业率先实现突破。

无论是政策的指向,还是在机构的预测中,金融行业都被重点提到。相比其他行业,金融行业在落地智能体方面有得天独厚的优势:有场景、有数据,重要的是“有钱”,有预算。

服务金融行业的人工智能应用服务商层出不穷,而“落地智能体”也成为时下金融行业热门的话题。在WAIC,就有多家企业进行了相关产品的发布。比如,蚂蚁数科发布了金融推理大模型Agentar-Fin-R1,容联云推出了容犀Agent & Copilot平台。人工智能行业被戏称为“拿着锤子找钉子”,本文也将以这两家企业为例,从“造锤子”和“找钉子”的角度,来分析智能体应用在金融机构的落地。

(注:文中内容来自DoNews对两家企业的采访,有整理。)

01、“造锤子”之算力

通过下面蚂蚁数科AI产品矩阵的示意图,可以直观的看出,智能体的落地,一般分为四个层次。

最底层依旧是算力,再往上是我们熟悉的大模型,再往上则是智能体平台,上文提到容联云的容犀Agent & Copilot平台,还有蚂蚁数科此前发的智能体平台Agentar都位于这一层级,再上一层就是应用层,也对应不同场景下的智能体。

拍摄、整理:DoNews

容联云大模型产品负责人唐兴才认为,在智能体的构建方式上,不同的服务商是大同小异的,都是从底层算力平台管理入手,进一步构建模型体系,模型管理之上,再结合具体的应用场景搭建平台,例如质检系统、洞察分析系统、客服系统或营销系统等。

不同企业的算力水平不可同一而论,比如银行财大气粗,可以拨款几十亿建数据中心,有的机构则选择花几百万买小型机,但用更少的算力,得到更好的业务效果,是所有企业共同的追求。

所以服务商首先要帮金融企业把算力用好,比如蚂蚁数科集成了一整套云原生架构,在AI工程能力上也有所积累,可以为客户建立算力平台和私有化算力中心。容联云在产业链上的定位更接近于应用厂商,会与阿里云、腾讯云等云厂商达成算力方面的合作。

对服务商来说,将算力用好,更多是看用什么尺寸的大模型。一般来说,参数规模越大,大模型的能力越强,大模型的能力直接决定了智能体的能力,而模型的参数规模越大,对算力的要求自然也就越高。

蚂蚁数科发布的金融推理大模型Agentar-Fin-R1就包含32B和8B两个版本,对此,蚂蚁数科CTO王维的看是,模型的尺寸取决于在什么样的场景下,需要什么样的算力:“模型的尺寸越大越好吗?它一定存在边际效应的衰减。今天选择8B或者32B,就是说在绝大多数场景下,这是一个比较主流、折中的选择。我卖你一个手机十万块钱,你肯定不会买,卖五千块钱你就会买,但是卖三五百,你会嫌性能不够好,它就是消费价值中合适的折中。”

唐兴才也举了个例子,他们会从实际的数据量出发,比如金融质检这个场景,一天要检测多少通会话,假如有一万通会话,再去判断选用多大尺寸的模型。“我们对7B、14B、32B、72B的模型都进行了测试,最终选择的是32B的模型,在保证效果和算力消耗上达到一个均衡,大概一两张卡就能很好的覆盖这个场景,整体投入也不是特别高。”

另外,金融行业对合规类的要求极高,还需要做国产GPU的适配,保证在信创的环境下也能跑出比较好的效果。比如唐兴才介绍,之前容联云主要适配的是昇腾,最近也在做阿里平头哥的适配。

02、“造锤子”之大模型

在WAIC上,蚂蚁数科喊出了一句口号:AI智能体产业价值释放的关键,在于“水平通用”向“垂直专用”的战略转变。

首先明确几个点:通用大模型在垂直领域并不好用;人工智能应用服务商也并不需要构建通用大模型;重要的是如何将通用大模型打造成好用的行业大模型,其核心就是“数据”。

对第一个点,蚂蚁数科金融AI产品总经理曹刚的解释是:“为什么通用大模型到了垂直领域不能开箱即用?因为大家最常见用大模型的方式是Prompt,非常简单和初级。在金融领域,你想用Promp把最简单的投资策略或者市场分析给搞出来,都是不切实际的,它没有足够深入的行业知识。”

王维也表示:“一个不能理解行业的大模型,它就不懂行。什么是懂行的呢?你是A银行,我是B银行,你们银行有你们银行的‘行话’,在我们银行就是另外的说法。而且,不同银行的数据集合策略不一样,即使同一个行业,不同的企业也有不同的禀赋,同一个业务,比如说理财推荐,A银行更推荐理财基金类的产品,B银行可能更倾向存款类的产品。”

不过,开源的通用大模型可以成为行业大模型可靠的基座。有趣的是,在基础模型的选择上,蚂蚁数科和容联云都选择了Qwen3.0,可见对其成熟度的普遍认可,在第二选择上,蚂蚁数科选择蚂蚁集团自研的百灵大模型,而容联云选择了DeepSeek。不过王维也表示:“今天做产业AI,不应该局限于某个特定的基础模型,我们后面会出蚂蚁百灵模型版本,甚至我们客户需要用DeepSeek或者其他的开源模型,我们也会考虑。”

金融行业是一个要求极高、审慎的行业,对幻觉的容忍度极低。和文章开头提到的模型推理能力的提升,直接推动了智能体发展的观点类似,王维通过过去几个月蚂蚁数科的实践,认为模型推的推理能力正变得越来越重要:“金融行业复杂场景的业务,需要模型整个推理的链条和推理的逻辑都很清晰,才能真正解决问题。”

想要用智能体解决金融行业的问题,金融推理模型是必选项,而想要提升模型的推理能力,蚂蚁数科将重点总结为“3个E”——高质量数据、过程中要兼顾数据和训练的消耗,还有持续迭代。

拍摄:DoNews

“金融专业能力必须用好的金融数据去投喂,”王维说:“说到底,大模型是解决问题的,你必须要对任务有足够多的识别,就像考试要有明确的大纲一样。考试大纲决定了会考你什么知识点,以及对知识点你掌握的怎么样。掌握好了就不要浪费过多的算力,掌握得不好要如何进行加训?所以,要减少幻觉和对算力的消耗,就必须持续对这件事情进行修正和追踪。我们的逻辑就是,特定的金融任务体系和高质量的数据,成为我们金融推理大模型专业度的表现。”

在数据层面,蚂蚁数科背靠蚂蚁集团这棵大树,能获取千亿级金融专业数据语料,构建的金融任务分类体系包括6大类、66小类场景,覆盖了银行、证券、保险、基金、信托等金融全场景。相较之下,容联云训练金融大模型早期是通过以往积累的存量数据,之后则是在金融客户中寻找创新意愿较强的企业共创,后者提供数据,容联云提供技术和资源,来推动应用落地,再基于标杆案例去开拓新的客户。“开源的Qwen3.0和场景落地之间隔的是数据,选择数据的能力是我们产品的核心竞争力。具体来说,就是按照规范,在客户庞杂的历史数据里面快速选择出符合场景的优质数据跑到模型里面去。”唐兴才说。

服务商基于同样的开源模型,获取不同的数据,再通过各自的训练算法来提高大模型对复杂金融任务的学习效率与性能,在实际应用中,都表现出了相对通用大模型的明显优势。蚂蚁数科曾宣布,Agentar-Fin-R1金融推理大模型在多个主流金融基准测试中,力压一众通用模型取得最高分。

图源:蚂蚁数科

“举个例子,有些场景中不使用一些核心的智能体技术和支持工程的技术,它(通用大模型)可能只打50分、60分,但是你使用了这些技术,能够对数据进行微调,对知识进行有效的提取,它的分数可能到90分。”王维解释道。

唐兴才也表示:“你拿Qwen3.0的裸模型去直接跑质检业务,也就百分之五六十的准确率。我们靠选数据的能力,把这个场景的数据标准定下来,训练好的模型准确率能达到96%以上。”

03、“造锤子”之智能体

人工智能的发展,一直是从技术驱动不断向市场驱动转移。从通用大模型到行业推理大模型,再到智能体,AI能够解决的问题越来越多,落地的价值也越来越高。

《智能体技术和应用研究报告(2025年)》中指出:“智能体通过多模态交互、大小模型协同、任务分解与规划、工具调用等技术,构建起从感知到执行的完整闭环系统,有效解决了大模型‘有脑无手’的难题,进而实现更广泛的互动和功能扩展。随着多智能体系统正逐步成为构建智能生态的重要支撑形态,以MCP、 A2A等为代表的大模型和智能体通信协议,为信息孤岛和通信兼容性问题提供了有效的技术解决方案,降低了智能体系统集成复杂性,进一步拓宽了智能体能力边界。”

智能体的核心价值,不在于多,而在于突破了以往的AI产品达不到的业务深度。就像蚂蚁数科CEO赵闻飙在WAIC的演讲中所说,与其做一两千个智能体业务,不如在一到两个业务里解决难题。

智能体的爆火始于去年年底,当时蚂蚁数科就投入到这一赛道,之后推出了Agentar智能体开发平台,在今年7月16日,中国信通院发布的2025年首批可信AI智能体评估结果中,蚂蚁数科占据了不同方向的两个席位。

图源:中国信通院

中国信通院对通用智能体和场景智能体的定义在于,前者关注智能体平台和工具、智能体技术能力、智能体应用服务、多模态智能体、多智能体协同等维度,后者聚焦数据分析智能体、客服智能体、搜索智能体、知识管理智能体等场景智能体。

不过这里笔者是有一些疑惑的,按照这个标准,Agentar其实也符合中国信通院对行业智能体的定义:面向金融、政务、汽车、手机、工业、教育、医疗等垂直行业。

而容联云的容犀Agent & Copilot平台,主要包括质检代理、坐席助理、坐席代理、洞察代理四个智能引擎,覆盖营销、客服、质检、数据洞察等,倒是比较标准的金融行业智能体。

虽然在王维看来,智能体元年的高峰期已经快过去了,但智能体还处于发展的早期,无论是对其的定义,还是产品层级的明确,都还未尘埃落定。在智能体赛道,王维认为,蚂蚁数科处于第一梯队,尤其是在金融和能源领域做的很深入,不过,他也承认,当下是智能体“百花齐放”的时期,赛道的竞争将会是一场长跑。

“用三年之后智能体的水平评判,今天的大家都不合格,蚂蚁数科想走的路就是在垂直领域持续奔跑,特别是在金融领域把蚂蚁的禀赋更大程度的发挥出来。”

对于未来的智能体,唐兴才倒是觉得,基础模型和智能体是上下层的关系,也许有一天,基础模型足够强大了,能够完全理解所有的场景,智能体自然而然就消失了。“这一天可能会来到,或者未来它会发展成什么程度,我们也不知道。但到来之前,我们作为应用厂商,只能拥抱现在的AI,尽快的让它落地去做出价值,做一些力所能及的事情,不管我们是大浪潮里的一滴水,或者是什么别的,都必须先把自己投入到大浪潮里去做。”

04、“找钉子”

聊完“造锤子”的事情,再聊下具体的应用落地。在上一轮的AI浪潮(大模型之前)中,金融行业的诸多场景就被反复挖掘过,理由有几个:

其一,金融行业数字化水平高,有良好的数字化基础设施。

其二,金融行业有较高的附加值,AI技术能带来的价值创造空间更大。

其三,金融行业普遍具备较充裕的预算支持,更倾向于拥抱新技术,对创新的包容度也较高。

不过,由于以往的技术水平限制,金融行业中的智能体市场依旧是一个“富矿”。曹刚认为,智能体在营销、风控、销售等场景的渗透率较低,首先是因为技术成熟度的原因,很多机构还处于观望状态,对于是否在核心业务上应用智能体还是比较谨慎;其次,是许多场景对专业度的要求极高,比如银行的零售业务包括十四个大场景,上百个小的细分场景,智能体需要一个个去深入攻克;再就是成本的问题,即使大模型的推理成本已经大幅降低,但技术投入的成本,还是不一定低于其带来的商业价值。

蚂蚁集团本身就有庞大的金融业务,其自研的金融大模型,包括AI云平台、智能体应用开发平台等,都是脱胎于蚂蚁集团自身的长期实践,比如在支付宝App里,就有理财顾问和问答咨询的智能体服务,再由蚂蚁数科作为蚂蚁集团AItoB的排头兵,对外做商业化的输出。

蚂蚁数科的打法偏向于“大而全”,先覆盖通用的场景,再深入解决业务难题。王维总结蚂蚁数科的优势,首先是人才多,“做大模型这个东西,没有一定的人才密度很难做”;其次是有钱,“没有足够多的钱,买不到足够多的算力,做不出足够好的训练效果,甚至你买不起卡,人才也不会来你这里”;再然后是有场景,许多智能体应用在蚂蚁集团的场景中已经跑通了。

“我们是不是最好的,不好说,但我们都占一点,”王维说:“把蚂蚁的经验输出出来,我们认为是非常有价值的,也能够给行业带来更多的智能体应用标杆。”

在Agentar平台上,也积累了不少来自银行、证券、保险等行业的案例,还有部分典型的智能体应用,以及上百种MCP服务,蚂蚁数科也在不断提升Agentar平台的兼容性和适配性。

而容联云更倾向于“找场景,先算帐”。这个算帐,既要算场景的价值产出,还有算要投入多少的算力、数据和模型开发成本,看是否值得去做。再然后,是看能不能做,既要科研部门有做的意愿和能力,也要业务部门能主动参与合作。第三,是上线之后,还能不断的迭代。满足这些条件的,才能做成标杆案例。

比如金融行业中的质检场景,如果营销业务因为触犯合规被投诉,就要停止展业,对部门影响极大。“之前快速发展期,可能也不是那么严地查你,大家都用人去抽检,或者睁一只眼闭一只眼不怎么查,现在消保金融监管总局都在严查这个事情,之前的一些常规手段像是用敏感词、人工抽检就不够用了——一天几万通电话人工没法检查的。”

唐兴才介绍,之前长江证券计划招募二三十人来做这件事,但与容联云合作,最后完全用AI完成,这样单个项目的价格是45万到60万之间,后续每年只需要六七万的服务费。“我们现场有两个人在那儿待了一个多月,和质检员天天坐在一起,理解这个场景,看质检到底是怎么要求的,要响应到什么程度,把这些东西都融合到我们的AI产品里面。”

容联云未来的规划是将业务链条上的场景节点串起来,在智能体深入场景的基础上,做的更宽,成为业务线或者网络的结构。“现在有一种说法是,一个企业可能会有50到100个智能体,每个智能体就像以前的AI应用一样,就负责一个小场景,但未来大模型变得特别聪明,我感觉这些场景是不是也能打通,这样一个智能体就可以干很多活。就像钢铁侠里的贾维斯,它可以做很多事情,至于它是不是还有AI管家,那无所谓。”唐兴才说。

在今年5月19日举办的微软 2025 Build 大会上,微软CEO萨提亚·纳德拉宣布:“我们已经进入了AI Agent时代,正在见证AI系统如何以全新方式帮助我们解决问题。”类似的观点,黄仁勋、扎克伯格、马斯克等也做过表达。

对金融行业来说,当企业更关注成本、部署效率和实用性等现实问题时,可能就意味着智能体已经经过了技术驱动到市场驱动的关键拐点。对于未来,王维认为,在一个开放竞争的市场中,一些公司有各自擅长的某些领域,相互间形成生态和产业,才是最健康的状态。

“我相信产业当中不仅有蚂蚁数科,还会有很多很好的参与者,让金融行业变得更加务实,解决真实的问题。只有这样,才会有更多的预算被投入进来,行业的效率也会更高,增长的本质是生产力的提升,如果说AI在金融行业得到了比较好的落地,一定会产生更大的经济效益和社会效益。”王维说。

标签: AI 人工智能
智能体重构金融业:AI厂商如何“造锤找钉”?
扫描二维码查看原文
分享自DoNews
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1