公司 Babylon 地点 英国 行业 人工智能、医疗保健

挑战

Babylon 的许多产品都利用了机器学习和人工智能,但在 2019 年,公司内部没有足够的计算能力来运行一项特定的实验。该公司当时也在快速发展(三年内从 100 人增长到 1600 人),并计划向其他国家扩张。

解决方案

Babylon 在 2018 年将其面向用户的应用程序迁移到了 Kubernetes 平台,因此基础设施团队转向了 Kubeflow,这是一个用于在 Kubernetes 上进行机器学习的工具包。人工智能基础设施负责人 Jérémie Vallée 表示:“我们尝试创建一个 Kubernetes 核心服务器,部署了 Kubeflow,并对整个实验进行了编排,最终取得了非常好的成功。”该团队开始在 Kubernetes 之上构建一个自助式人工智能训练平台。

影响

团队无需等待数小时或数天即可进行计算,而是可以立即获得访问权限。临床验证过去需要 10 个小时;现在不到 20 分钟就能完成。云原生平台的可移植性也使 Babylon 能够扩展到其他国家。

Babylon 的使命是让地球上的每个人都能获得价格实惠的医疗保健服务。

自 2013 年在英国推出以来,这家初创公司已在全球范围内促成了数百万次数字咨询。在英国,患者通常需要等待一到两周才能预约到医生。通过 Babylon 的 NHS 服务 GP at Hand(该服务拥有超过 75,000 名注册患者),39% 的患者在 30 分钟内通过电话预约,89% 的患者在 6 小时内预约。

这仅仅是个开始。Babylon 人工智能基础设施负责人 Jérémie Vallée 表示:“我们尝试将不同类型的技术与我们内部的医学专业知识相结合,打造出能够帮助患者管理和了解自身健康状况,并帮助医生提高工作效率的产品。”

这些产品中有很大一部分利用了机器学习和人工智能,但在 2019 年,研究人员遇到了一个难题。Vallée 说:“我们公司内部有一些服务器,我们的研究人员在上面做了很多人工智能实验和一些模型训练,但我们遇到了一个问题,就是公司内部没有足够的计算能力来运行一项特定的实验。”

Babylon 在 2018 年将其面向用户的应用程序迁移到了 Kubernetes 平台,“得益于这次迁移,我们积累了大量的 Kubernetes 知识,”他补充道。为了优化已经创建的一些模型,该团队转向了 Kubeflow,这是一个用于在 Kubernetes 上进行机器学习的工具包。他说:“我们尝试创建一个 Kubernetes 核心服务器,部署了 Kubeflow,并对整个实验进行了编排,最终取得了非常好的成功。”

基于这次经验,Vallée 的团队的任务是构建一个自助服务平台,帮助 Babylon 的人工智能团队提高效率,进而帮助产品更快地推向市场。主要需求是:(1) 能够让研究人员和工程师获得他们所需的计算能力,无论他们需要运行的实验规模有多大;(2) 以集中式的方式,按需为团队提供完成工作所需的最佳工具;(3) 由于公司要向不同国家扩张,因此训练平台必须靠近正在管理的数据。

Kubernetes 在各个方面都发挥了推动作用。Vallée 说:“Kubernetes 是一个非常适合机器学习的平台,因为它提供了您所需的所有调度和可扩展性。”Babylon 需要在其运营的每个国家/地区保留数据,这就需要采用多区域、多云战略,而有些国家/地区甚至可能根本没有公共云提供商。他说:“我们希望让这个平台具有可移植性,以便我们可以在任何地方运行训练作业。Kubernetes 提供了一个基础层,允许您在云提供商之外部署平台,然后部署您需要的任何工具。这对我们来说是一个非常好的卖点。”

团队决定在 Kubernetes 之上构建 Babylon 人工智能研究平台后,他们参考了云原生全景图来构建技术栈:使用 Prometheus 和 Grafana 进行监控;使用 Istio 服务网格来控制训练平台上的网络,并控制所有工作流的访问权限;使用 Helm 来部署技术栈;使用 Flux 来管理流水线的 GitOps 部分。

云原生人工智能平台对 Babylon 产生了巨大的影响。在该平台上运行的首批研究项目主要涉及机器学习和自然语言处理。这些实验需要大量的计算资源(1600 个 CPU、3.2 TB RAM),远远超过 Babylon 公司内部的资源。此外,根据平台团队的忙碌程度,访问计算资源过去需要数小时,有时甚至需要数天时间。Vallée 说:“现在,借助 Kubernetes 和我们提供的自助服务平台,访问几乎是即时的。”

在该平台上进行的另一项重要工作是针对新应用程序的临床验证,例如 Babylon 的症状检查器,该检查器可以根据用户输入的证据计算出患病的概率。Vallée 说:“在医疗保健领域,我们希望所有模型在投入生产之前都是安全的。”使用 Argo 进行 GitOps“使我们能够大规模扩展流程。”

研究人员过去最多需要等待 10 个小时才能获得新版本模型的结果。借助 Kubernetes,现在这个时间缩短到了不到 20 分钟。此外,以前他们一次只能运行一个临床验证,而现在如果需要,他们可以同时运行多个临床验证,考虑到在过去三年中,Babylon 的员工人数从 100 人增加到了 1600 人,这是一个巨大的优势。

首席技术官 Caroline Hargrove 表示:“通过提供一个自助服务平台,用户可以自主运行自己的工作负载,这使得我们的数据科学家团队能够在没有任何云技能和平台工程师帮助的情况下进行超参数调整和通用算法开发,从而加速了我们的创新。”

平台运营总监 Jean Marie Ferdegue 补充道:“为我们的数据科学家提供基于 Kubernetes 的平台意味着更高的安全性、通过赋能实现更多创新,以及更实惠的医疗保健服务,因为我们的云工程师正在构建每天有数百人使用的体验,而不是支持特定的定制用例。”

此外,随着 Babylon 的不断扩张,“新国家的加入将会非常容易,”Vallée 说。“15 个月前,当我们部署这个平台时,我们在英国有一个很大的环境,但现在我们在加拿大有一个,在亚洲有一个,在美国还有一个即将建成。这是 Kubernetes 和其他云原生项目为我们带来的好处之一。”

Babylon 的云原生路线图涉及将公司所有的 AI 工作都迁移到该平台上。这越来越多地包括人工智能医疗服务。Vallée 说:“我认为这将是一个人工智能与医疗保健相遇的有趣领域。这是一个相当复杂的问题,围绕着它有很多问题。因此,借助我们的平台,我们想说,‘我们能做些什么来让我们的开发人员和机器学习工程师少走弯路?’”