“最狠SaaS服务商”:有赞如何做到99.99%系统稳定性?

对软件服务商来说,系统稳定性的保障一直是一个非常复杂的命题。通常情况下,业界比较优秀的服务商,系统稳定性一般能做到99.9%,而有赞的系统可用性已经做到了接近99.99%,也就是每年仅有0.01%的时间不可用,相当于全年无休,保障随时可用。

有赞CTO崔玉松曾透露,行业内各种各样的稳定性治理方式,有赞技术团队都有过尝试或者正在尝试,包括蓝绿发布、灰度发布、混沌工程等等治理方式。

为了保证系统稳定性,让商家在安全稳定的环境下做生意,有赞还做了哪些投入与准备?成为在系统稳定保障上“最狠”的技术服务商?

1、云计算做基础设施,所有数据备份

有赞从 2013 年就开始使用云计算作为基础设施,几乎所有的服务都是有备份的。2019年7月份,有赞还为加入“云服务”保障的商家单独搭建了全新服务器集群,性能相比老集群提升15倍。

2、“跨云”解决方案,鸡蛋放在不同篮子里

尽管通过云计算备份了数据,还是不能满足把一年 365 天的故障降低到一年 5 小时以内的需求。因此,有赞在 2017 年开始制定跨云的解决方案,把腾讯云和 Ucloud 两个云计算厂商通过几条光纤直接打通,确保任何一个云计算厂商有问题都不会影响有赞太长时间。

为此,有赞每年都要多付出一倍多的机房成本。

3、机房分区隔离,减少影响商家数量

发生故障的时候,如何减少影响的商家数量?有赞的做法是:给商家分区,区和区之间是相互隔离的,一个区停机只影响自己。有赞会做到根据商家去隔离,每个区之间相对不影响。

4、"护航计划”,用最狠补偿政策向商家承诺

“系统稳定高于一切”是有赞的第一信条。为了让“系统稳定高于一切”不断地做到极致,有赞在2017年就推出了“有赞护航”计划:如果出现核心服务不可用,影响了客户的生意,就按照不可用时间给予对应102.4倍服务时长的补偿——目前该承诺适用于有赞微商城、有赞零售、有赞美业所有产品。这是整个信息服务行业里没有的最最高规格“承诺”。

5、每月一次系统稳定性演练,模拟处置最真实最极端故障。

双十一等大促前夕还会增加演练频次和力度,确保在交易峰值时依然系统稳定。目前,有赞的系统订单处理速度能达到6万笔/秒,用户端页面打开速度1.05秒。

6、独有专利的离线收银技术。

即使远程服务宕机,依然可以满足商家基本的收银需求


Copyright © DoNews 2000-2024 All Rights Reserved
蜀ICP备2024059877号-1     京ICP证151088号
京网文【2018】2361-237号