三次浪潮:从OceanBase看国产数据库的崛起

撰文 | 李信马

题图 | AI生图

10年前,笔者进入科技媒体行业,最先接触的顶级科技公司就是甲骨文(Oracle)。那时候,提起数据库大家的第一反应就是Oracle,在2016年的Gartner数据仓库和分析数据管理解决方案魔力象限中,Oracle是无可争议的领导者。

Gartner 2016数据仓库和分析数据管理解决方案魔力象限 图片来源:Gartner

在中国市场,其产品备受各行各业尤其是金融行业的信赖。有机构调查数据显示,当时Oracle占到了我国数据库市场份额的一半左右,另外约3成的市场份额被国外数据库占据,国产数据库的市场份额不足2成。

下面这张图片拍摄于1987年,图中站在讲台旁边穿着白衬衫打着领带的年轻人,正在教授SQL语言。他是甲骨文的第7号员工Andy Mendelsohn,曾任Oracle数据库技术执行副总裁,负责甲骨文全球数据库的研发,直到今年年初才退休。

他来到中国的契机,是当时我国西部最大的钢铁生产基地攀枝花钢铁公司,有一个1200万的计算机管理信息系统项目,系统下面还有13个子应用系统,这一级别的IT工程必须要用大型的商用数据库。

彼时Oracle还没有进入中国市场,于是在项目组购买了Oracle 5.1数据库之后,对方寄过来三箱英文教材,参加项目的40余人一边翻译一边开发,还分成几组互相培训,甚至内部编写了一个实用教程。1989年项目完成时,培训教程也被整理出版,这就是Oracle的第一部中文教材《Oracle数据库实用教程》,项目也获得了1989年冶金部的科技进步一等奖。之后,Oracle正式进入中国市场。

中国早期的信息化建设随处可见Oracle的身影,随着九十年代后期国家税务总局启动了世界银行税收征管改革(CTAIS)技术援助项目,Oracle数据库在我国金融数据库市场逐渐占据了主流位置。微软的SQL Server、IBM的DB2、Sybase、Informix等国外的数据库,也陆陆续续进入国内市场。

相比之下,国产数据库本身起步晚,1999年,中国第一家真正意义上的国产数据库企业人大金仓(现已改名中电科金仓)才成立,此时距离Oracle发布第一个版本的数据库已经过去了20年。

在很长的一段时期里,国产数据库与Oracle等国外数据库相比,差距是明显的。不过当下,国产数据库有了长足的发展,在部分领域也可以宣称达到世界一流水平了。究其原因,笔者认为,国产数据库厂商的努力固然重要,也要考虑时代的进程。

不久前,2025 OceanBase年度发布会在北京召开,在一众国产数据库中,它不能说是唯一的主角,但通过观察OceanBase,我们的确能看到,国产数据库是如何抓住历史机遇,逐渐发展和壮大的。

一、互联网和国产化

早期的国产数据库追不上Oracle的原因很简单——后者的先发优势太大了。2017年,当时几家老牌国产数据库厂商中,以南大通用GBase的市场占有率最高,但其年营业收入仅为3.05亿元人民币——作为对比,甲骨文2017财年仅研发投入就达到了60亿美元,而且在之前的10年里花费850亿美元并购了130余家公司。

起步晚、投入少,还存在竞争壁垒,在相似的技术路线上,国产数据库能够维持发展,并满足部分政府、军工等关键信息领域的需求,就已经极为难得。

但互联网的快速发展,却给了后发者“弯道超车”的机会。2008年,《自然》杂志提出了“Big Data”(大数据)的概念,互联网上非结构化数据迎来井喷式的爆发,揭开了大数据时代的序幕。

在中国,BAT抓住了时代的机会,完成了对新浪、搜狐、网易“旧三巨头”的反超,但急速增长的背后,他们面对海量数据同样焦头烂额,增长的利润都被“IOE”(IBM的小型机、Oracle的数据库和EMC的存储)吃掉,继续增长如同饮鸩止渴。

比如腾讯,当时按核计费一年要支付给Oracle上亿美金,而且越发无法满足大规模、高并发、大容量的需求,每次发生宕机事故,只能等甲骨文的技术人员来维护解决。这种情况下,去“IOE”对全球的大型互联网公司来说都是势在必行。

重要的是,互联网公司有场景需求,也有钱,让他们有动力也有能力去推动这件事情。

从谷歌的那篇论文——《基于集群的简单数据处理:MapReduce》,到Hadoop、Spark等开源技术的出现,互联网公司基于分布式架构的存储、资源调度和计算,只需要叠加机器数量,就能够以更低廉的成本达到和突破以往集中式架构下的性能。

这件事发展到后面,就是云计算的兴起了,不过多展开。

在数据库领域,从90年代末期开始,开源数据库就逐渐兴起,谷歌等互联网巨头大规模应用MySQL等开源数据库,即使后来MySQL被Oracle收购,也没改变这一趋势,在商业数据库领域,谷歌最早尝试了研发分布式数据库——Google Spanner,这对瓦解“IOE”模式也起到了重要的作用,也不做过多展开了。

本文的主角OceanBase,也诞生于互联网公司日益旺盛的大数据需求,和当时数据库产品供给不足的矛盾中。多年前,笔者曾采访过OceanBase的CTO杨传辉,当时他还是OceanBase的研究员,据他透露,除了支付宝前CTO程立的强力推动外,压力测试时Oracle出现了抖动,也是推动他们转向自研数据库的重要原因。

采访中,他对国产数据库长期发展缓慢的看法,让笔者印象深刻:“没有业务就会导致自研的系统没有人来试验,系统就不成熟,因为不成熟就没有业务,进入这样一个恶性循环的话,这个系统很难做好。要跨过这个恶性循环,自研数据库至少要5-10年的时间,我觉得5年是最低的,而且需要有类似双十一这样现象级的业务场景,普通业务场景诞生不了世界级的数据库。”

简单列一下时间轴,就能清晰地看到其中的联系:

  • 2010年:创始人阳振坤加入,OceanBase 诞生;
  • 2011年:OceanBase 进入电商业务,服务阿里巴巴集团数十个电商平台业务;
  • 2014年:支撑支付宝核心交易系统,承担“双11”10%的交易流量;
  • 2015年:承担“双11”100%的交易流量;网商银行成立,OceanBase 服务网商银行,成为全球首个应用于金融核心业务系统的分布式关系数据库;
  • 2016年:支撑支付宝核心账务、核心支付系统,支撑 12 万笔/秒支付峰值、17.5 万笔/秒交易峰值;
  • 2017年:替换蚂蚁集团核心系统最后一个Oracle数据库。

这里着重提一下,2017至2019年,OceanBase V2.0版本对MySQL的兼容性逐步迈进,最终实现了对Oracle的全面兼容,这意味着企业在迁移核心业务系统时,不需要对应用层进行大规模改造,极大降低了分布式数据库的落地门槛——或者干脆点说,OceanBase有了“反攻”Oracle的能力,在金融、政务等传统依赖Oracle的行业打开了市场。

下图是2018年Gartner的OLTP数据库魔力象限,Oracle依旧高居领导者的位置,但也出现了阿里云的身影,不得不说是历史性的进步了。其实从时间上来看,阿里云的云原生数据库POLARDB在2015年才开始自研,2017年10月正式发布,2018年商用,是明显晚于OceanBase的,后者知名度相对较低,可能是吃了2020年才独立的亏。

当然也有可能,是因为那时是云数据库迅猛发展的阶段,Amazon Web Services的位置都快和Oracle肩并肩了。这也是大势所趋,两年后Gartner将OPDBMS(Operational Database Management Systems)和DMSA(Data Management Solutions for Analytics)合并为CDBMS(Cloud Database Management Systems),理由是“There is Only One Cloud Database DBMS Market”,云原生架构和分布式技术最终深度融合为云数据库。

2018年的Gartner分析型数据管理解决方案魔力象限

至于国产化,这个就不细讲了,懂的都懂。国家出于基础软件自主可控的目的,对国产数据库有政策上的倾斜,除了在军工、政府等关键领域应用国产数据库外,在金融等领域也要求国产化。2014年中国银监会39号文件《关于应用安全可控信息技术加强银行业网络安全和信息化建设的指导意见》中,就提出“在操作系统、数据库等领域要加大探索和尝试力度;从2015年起,各银行业金融机构对安全可控信息技术的应用以不低于15%的比例逐年增加,直至2019年达到不低于75%的总体占比”。

这里放一页笔者多年前参加活动时看到的PPT,Oracle创始人拉里·埃里森(Larry Ellison)在2018年10月接受FOX采访时曾强调,不能让中国的科技公司打败美国的科技公司,在那时,他就将中国视为美国面临的最大竞争对手了。

所以有些事情是必须要做的。2019年年中,Oracle中国研发中心关闭,大规模裁员1600人,这被视为Oracle在中国的“败走”。同年10月,在“数据库世界杯”TPC-C基准测试中,OceanBase以超过6000万的分数,打破了由Oracle保持了9年的OLTP世界纪录,成为首个登顶的国产数据库。

在这里,用OceanBase CEO杨冰接受笔者采访时的回复来做下总结,他认为,OceanBase的发展,抓住了三个重要的时代机遇,其中前两个分别是:

“第一波是互联网的浪潮,本身我们也出身于阿里和蚂蚁的大环境,如果没有这一波浪潮带来的海量的数据和互联网的发展,其实很难倒逼团队做如此大的投入,从第一行代码开始去写数据库。这是以前所有的传统数据库厂商都没有遇到过的(机遇),所以也使得我们以创新的方式把分布式和数据库等结合在一起,完成了一次我认为是技术上弯道超车的积累。

第二波浪潮,假如前面这十年是让我们快速形成技术的话,后面OceanBase商业化的这五六年,是让我们快速从技术变成产品的过程,我们也经历了中国分布式升级和国产化升级的浪潮。这个过程的意义在于,第一,它的时间非常短、非常迅速;第二,都是非常核心的关键系统做整个升级的替换。就像‘双11’一样,技术挑战也是非常大的,而且是全行业去做,极大地缩短了我们把技术变成成熟产品的周期。”

二、AI时代的机遇

第三个时代机遇,分两个方面来讲,技术上就是进入了AI时代。

为什么这么说呢?杨冰表示:“AI的话,它对于数据库产生了新的需求,这些其实是让我们一下子跟世界级的数据库领域的玩家站在同一起跑线,因为这个场景全球都是新的,都是一样的。而且可能因为中国应用比较发达,数据基建发展得比较快,数据量比较大,反而我们在这个场景当中,中国数据库的玩家有更多的机会。”

具体来讲,和大数据时代类似,AI时代的数据库需要处理的数据量会变得越来越大,而且数据类型也与以往不同。大模型的计算能力强,但没有记忆,需要数据库产品来存储和管理上下文,也即上下文工程。以前,是数据先进行结构化,然后进入数据库处理,在AI场景中,数据可能未经处理就直接进入数据库中。

近几年,业界新的数据库产品,其实都是面向AI的,比如向量数据库、supabase等产品,数据库领域的技术范式已经由应用服务慢慢延伸到智能服务。业界主流的数据库,包括Oracle和MongoDB,也在引擎内部逐步增加了搜索的能力,支持AI原生的场景。谁能有把数据变成可被模型实时调用、可信执行的能力,谁就握住了AI时代的机遇。

“只要谈到AI数据库,很多人的脑海里面想到的第一个词叫向量搜索,我认为向量搜索只是AI数据库的初级阶段,最终所有的向量搜索都会逐步演进为混合搜索,能不能支持混合搜索是AI数据库核心能力的分水岭。”杨传辉认为,未来数据库除了处理结构化数据,还需要处理半结构化甚至是无结构化的数据,或者针对无结构化的数据来建立各种各样的语义索引,比如说向量索引、图索引和全文索引等,并需要有一套基于结构化、半结构化,以及无结构化各种索引之上的混合搜索。

他给出了一个具体的定义——面向Agent多模混合搜索。今年4月27日,OceanBase发布了Datax AI战略,宣布要打造 AI 时代的一体化数据底座。2025年,V4.4版本发布了共享存储,采用存算分离架构,计算节点和数据存储实现了完全的分离,计算节点能够根据业务负载的变化,在主流云平台上灵活地进行扩缩容,解决了AI时代打通多云底座的问题。

本次发布会上,OceanBase发布了4.4一体化融合版本,将TP、AP与AI能力集成于单一内核,同期还开源了其首款AI原生混合搜索数据库seekdb,支持向量、全文、标量、GIS数据统一检索,兼容30+主流AI框架。

seekdb产品架构

“这一次seekdb的发布,其实也是一个比较大的动作,它是完全独立于现在OceanBase的一个分支,这也是我们下的决心。我们觉得AI的发展速度会超出我们的想象,所以我们希望以这样的方式跑得更快一点,但是这个东西也对OceanBase工程化能力的各个方面提出进一步的挑战。”杨冰说。

而商业上的时代机遇,就是全球化。随着大量的中国企业出海,包括软件企业、硬件企业和云厂商,对国产数据库的全球化是有利好的。OceanBase诞生的第一天,就希望成为“世界级数据库”,全球化也是其发展的必经之路。

不过,这条路即使对现在的OceanBase来说也是充满挑战。

市场竞争方面,还是拿Oracle来举例。两个月前,Oracle的股价大涨,一度将拉里·埃里森送上了世界首富的宝座,虽然最近其股价又大跌,不过机构看空的重要原因是认为其人工智能计划过于“激进”。在AI时代,Oracle提出了“融合数据库”的概念,Oracle的多模融合主要涉及数据类型与整体架构,比如图数据、数据流、数据仓库与数据湖架构,以及多种应用层级。在构建应用时,如果应用系统涉及多个数据库,架构会变得复杂,容易出错。融合数据库通过整合不同数据类型和工作负载,支持企业级应用所需的高可靠性、安全性和可扩展性。

今年7月,笔者采访了甲骨文公司副总裁及中国区董事总经理吴承杨,他在采访中表示:“国产数据库倾向于在应用层或数据中台解决所有问题,而对错需实践验证。但在智能体时代,代码多由机器生成,如果希望从数据库层面解决安全等问题,数据库结构过于复杂对 AI 的使用是一个挑战。现在很多企业做 AI 项目时,会把现有数据平台的应用抽取到外部另起炉灶,这其实是误区。”

在多模态和一体化上,OceanBase和Oracle的思路是相似的。吴承杨也表示,大多数国产数据库近一两年都在谈融合数据库的事情,但他认为,国产数据库要做好,还需要一定的时间。

“融合数据库不是几种数据类型,是大量的数据类型,你可以看到我们在这上面有包括空间数据、结构化数据、MongoDB,JSON 的东西,文本的东西,XML 的东西,包括向量数据。坦率来讲,我今天还没有看到,一个国产数据库能够把一个向量数据库融合在这里面,还有图数据要融合进来,我觉得这是需要大量的投入。”吴承杨说。

在中国市场,Oracle也非常重视中国企业出海,即China to Global(C2G),在产品端,吴承杨认为Oracle在数据合规和数据主权化等方面也有优势。

结语

自2020年商业化以来,OceanBase的全球客户数已突破4000家,连续五年年均增速超100%,深入到了金融、政务、通信、零售、制造、互联网等十余领域,服务覆盖16个国家和地区、60多个地域、240多个可用区。

在其长期深耕的金融领域,OceanBase服务了全部政策性银行、5家国有大行,覆盖了超100家资产规模千亿级以上银行,支撑190余个核心系统、1000多个关键业务;非银领域,75%头部保险集团、80%头部券商、60%头部基金公司已部署OceanBase,其中超半数用于核心系统。IDC报告显示,OceanBase连续两年稳居中国分布式金融本地部署市场第一。

在去年年底Gartner最新发布的全球云数据库管理系统魔力象限中,OceanBase虽然还未上榜,但已经连续两年获选“荣誉提及”。考虑到2022年OceanBase才正式推出云数据库产品,近三年,OB Cloud客户数年均增长115%,营收占比已达30%,这个表现很不错了。

在采访中,杨冰认为,OceanBase过去为国产数据库的发展,主要做了三个方面的贡献:

一是数据库和分布式相结合,解决扩展性、可靠性和一致性的问题,OceanBase在工程化方面,做到了技术上的创新和突破;

二是在整个存储结构上,以前是以Tree为主,OceanBase用LSM Tree数据结构,把它和数据库相结合,演化出真正的HTAP,真正的存算分离和存算一体架构,包括单机分布式一体化,在存储层面引领着创新;

三是在解决可用性的层面上,OceanBase做到在数据不丢失的情况下,RTO小于8秒,这是以前传统架构没有做到过的。

现在,我们谈论国产数据库是否已经崛起,还不是十分肯定。全球化和AI时代的到来,就是新一轮的“大考”。未来,OceanBase能否通过创新的方式,拓展数据库的技术边界,可能就是其能否成为“世界级数据库”的关键。

三次浪潮:从OceanBase看国产数据库的崛起
扫描二维码查看原文
分享自DoNews
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1