公司 蚂蚁金服 地点 中国杭州 行业 金融服务

挑战

蚂蚁金服正式成立于 2014 年 10 月,其前身是 2004 年推出的全球最大的在线支付平台支付宝。该公司还利用技术创新提供许多其他服务。支付宝为其全球 9 亿多用户(通过其本地和全球合作伙伴)处理的交易量巨大——2017 年双十一购物狂欢节高峰期每秒处理 25.6 万笔交易,2018 年双十一购物狂欢节的商品总成交额达到 310 亿美元——更不用说其其他服务了,蚂蚁金服面临着“全新的数据处理挑战”,负责存储和计算集团产品管理的郝杰航表示。“我们在这种规模下运营时,面临着三大主要问题:如何提供实时计算、存储和处理能力,例如为欺诈检测提供实时建议;如何基于这些数据提供智能,因为数据量太大,我们无法获得足够的洞察力;以及如何在应用层、中间件层、系统层,甚至芯片层应用安全。”为了向其客户提供可靠和一致的服务,蚂蚁金服在 2014 年初就开始采用容器,并且很快需要一个编排解决方案来管理其数据中心中数万个节点的集群。

解决方案

在调查了几种技术之后,该团队选择了 Kubernetes 进行编排,以及许多其他 CNCF 项目,包括 PrometheusOpenTracingetcdCoreDNS。“2016 年底,我们决定将 Kubernetes 作为事实上的标准,”郝杰航说。“回顾过去,我们在正确的技术上下了正确的赌注。但随后我们需要将生产工作负载从传统基础架构迁移到最新的支持 Kubernetes 的平台,这花费了一些时间,因为我们在可靠性和一致性方面非常谨慎。”所有核心金融系统都在 2017 年 11 月之前实现了容器化,并且正在迁移到 Kubernetes。

影响

“在云原生技术的运营方面,我们已经看到了至少十倍的改进,这意味着你的产出可以增加十倍,”郝杰航说。蚂蚁金服还向全球的商业伙伴提供其完全集成的金融云平台,并希望凭借其在服务创新和技术专长方面的丰富经验,为下一代数字银行提供支持。郝杰航表示,该团队还没有开始专注于优化 Kubernetes 平台:“因为我们仍处于高速增长阶段,所以我们还没有进入成本节约模式。”

蚂蚁金服是从跨国企业集团阿里巴巴剥离出来的,估值超过 1500 亿美元,规模也与其相匹配。这家成立于 2014 年的金融科技初创公司由全球最大的在线支付平台支付宝和许多其他利用技术创新的服务组成。

支付宝为全球超过 9 亿用户(通过其本地和全球合作伙伴)处理的交易量惊人:2017 年双十一购物狂欢节高峰期每秒处理 25.6 万笔交易,2018 年双十一购物狂欢节的商品总成交额达到 310 亿美元。蚂蚁金服秉承“让世界平等的机会”的使命,致力于通过技术创新打造开放、共享的信用体系和金融服务平台。

再加上其其他业务的运营——例如花呗在线信用系统、借呗贷款服务以及拥有 3.5 亿用户的 蚂蚁森林 绿色能源移动应用程序——蚂蚁金服面临着“全新的数据处理挑战”,负责存储和计算集团产品管理的郝杰航表示。“我们在这种规模下运营时,面临着三大主要问题:如何提供实时计算、存储和处理能力,例如为欺诈检测提供实时建议;如何基于这些数据提供智能,因为数据量太大,我们无法获得足够的洞察力;以及如何在应用层、中间件层、系统层,甚至芯片层应用安全。”

为了应对这些挑战并为其客户提供可靠和一致的服务,蚂蚁金服在 2014 年开始采用 Docker 容器化。但他们很快意识到,他们需要一个编排解决方案来管理公司数据中心中数万个节点的集群。

该团队调查了几种技术,包括 Docker Swarm 和 Mesos。“我们做了很多概念验证,但我们在生产系统方面非常谨慎,因为我们要确保不会丢失任何数据,”郝杰航说。“你不能容忍服务停机一分钟;即使是一秒钟也会产生非常非常大的影响。我们每天都在压力下运营,为中国和全球的消费者和企业提供可靠和一致的服务。”

最终,郝杰航表示,蚂蚁金服选择 Kubernetes 是因为它满足了所有条件:强大的社区、“未来三到五年内仍将具有相关性”的技术,以及与公司工程人才的良好匹配。“2016 年底,我们决定将 Kubernetes 作为事实上的标准,”郝杰航说。“回顾过去,我们在正确的技术上下了正确的赌注。但随后我们需要将生产工作负载从传统基础架构迁移到最新的支持 Kubernetes 的平台。我们花了很多时间学习,然后培训我们的人员在 Kubernetes 上构建应用程序。”

所有核心金融系统都在 2017 年 11 月之前实现了容器化,并且正在迁移到 Kubernetes。蚂蚁金服的平台还利用了许多其他 CNCF 项目,包括 PrometheusOpenTracingetcdCoreDNS。“在今年的双十一购物狂欢节上,我们在 Kubernetes 上部署了大量的节点,但与我们基础设施的整体规模相比,这仍在进行中,”全球技术合作伙伴与发展部门的余泉表示。

尽管如此,已经产生了一些影响。“云原生技术在效率方面让我们受益匪浅,”郝杰航说。“总的来说,我们希望确保我们的基础设施足够灵活,能够应对明天可能发生的工作。这就是目标。借助云原生技术,我们在运营方面看到了至少十倍的改进,这意味着你的产出可以增加十倍。假设你用一个人操作 10 个节点。使用云原生技术,明天你就可以拥有 100 个节点。”

蚂蚁金服还向全球的合作伙伴提供其金融云平台,并希望凭借其在服务创新和技术专长方面的丰富经验,为下一代数字银行提供支持。郝杰航表示,该团队还没有开始专注于优化 Kubernetes 平台:“因为我们仍处于高速增长阶段,所以我们还没有进入成本节约模式。”

在蚂蚁金服转向云原生的过程中,CNCF 社区也是一笔宝贵的财富。“如果你正在应用一项新技术,那么拥有一个社区与其他用户讨论技术问题是非常好的,”郝杰航说。“我们非常感谢 CNCF 和这项了不起的技术,在我们继续在全球范围内扩展业务的过程中,我们需要它。我们未来肯定会更多地拥抱社区和开源。”

事实上,该公司已经开始开源其部分 云原生中间件。“我们将在这方面非常积极主动,”余泉说。“CNCF 提供了一个平台,每个人都可以插入或贡献组件。这是一个非常好的开源治理。”

展望未来,蚂蚁金服团队将继续评估许多其他 CNCF 项目。该团队在中国建立了一个服务网格社区,汇集了许多中国公司和开发人员,共同探讨这项技术的潜力。“服务网格对中国开发人员和最终用户非常有吸引力,因为我们现在有很多遗留系统在运行,它是将所有内容(包括新的和遗留的)粘合在一起的理想中间层,”郝杰航说。“对于新技术,我们会非常密切地关注它们是否会持久。”

在蚂蚁金服,Kubernetes 以优异的成绩通过了测试,该团队希望其他公司也能效仿。“在中国,我们是金融和其他相关服务创新领域的北斗星,”郝杰航说。“我们当然希望确保我们在未来 5 到 10 年内通过技术投资继续保持领先地位。”