调度框架

特性状态: Kubernetes v1.19 [稳定]

调度框架是 Kubernetes 调度器的可插拔架构。它由一组直接编译到调度器中的“插件”API 组成。这些 API 允许将大多数调度功能实现为插件,同时保持调度“核心”轻量级且易于维护。有关框架设计的更多技术信息,请参阅调度框架的设计提案

框架工作流程

调度框架定义了一些扩展点。调度器插件注册为在一个或多个扩展点被调用。其中一些插件可以更改调度决策,而另一些插件仅提供信息。

每次尝试调度一个 Pod 时,都会将其分为两个阶段,即调度周期绑定周期

调度周期和绑定周期

调度周期为 Pod 选择一个节点,绑定周期将该决策应用于集群。调度周期和绑定周期一起被称为“调度上下文”。

调度周期串行运行,而绑定周期可以并发运行。

如果确定 Pod 不可调度或发生内部错误,则可以中止调度或绑定周期。Pod 将返回队列并重试。

接口

下图显示了 Pod 的调度上下文以及调度框架公开的接口。

一个插件可以实现多个接口来执行更复杂或有状态的任务。

一些接口与调度器扩展点相匹配,可以通过调度器配置进行配置。

调度框架扩展点

PreEnqueue

这些插件在将 Pod 添加到内部活动队列之前调用,在该队列中,Pod 被标记为准备调度。

只有当所有 PreEnqueue 插件都返回 Success 时,才允许 Pod 进入活动队列。否则,它将被放置在内部不可调度 Pod 列表中,并且不会获得 Unschedulable 条件。

有关内部调度器队列如何工作的更多详细信息,请阅读kube-scheduler 中的调度队列

EnqueueExtension

EnqueueExtension 是插件可以根据集群中的更改来控制是否重试调度被此插件拒绝的 Pod 的接口。实现 PreEnqueue、PreFilter、Filter、Reserve 或 Permit 的插件应该实现此接口。

QueueingHint

特性状态: Kubernetes v1.28 [测试版]

QueueingHint 是一个回调函数,用于决定 Pod 是否可以重新排队到活动队列或退避队列。每次集群中发生某种事件或更改时都会执行它。当 QueueingHint 发现该事件可能使 Pod 可调度时,Pod 将被放入活动队列或退避队列中,以便调度程序将重试 Pod 的调度。

QueueSort

这些插件用于对调度队列中的 Pod 进行排序。队列排序插件本质上提供了一个 Less(Pod1, Pod2) 函数。一次只能启用一个队列排序插件。

PreFilter

这些插件用于预处理有关 Pod 的信息,或检查集群或 Pod 必须满足的某些条件。如果 PreFilter 插件返回错误,则调度周期将中止。

Filter

这些插件用于过滤掉无法运行 Pod 的节点。对于每个节点,调度程序将按其配置顺序调用过滤器插件。如果有任何过滤器插件将节点标记为不可行,则不会为该节点调用剩余的插件。节点可以并发评估。

PostFilter

这些插件在 Filter 阶段之后调用,但仅在没有为 Pod 找到可行节点时调用。插件按其配置顺序调用。如果有任何 PostFilter 插件将节点标记为 Schedulable,则不会调用剩余的插件。典型的 PostFilter 实现是抢占,它试图通过抢占其他 Pod 来使 Pod 可调度。

PreScore

这些插件用于执行“预评分”工作,为 Score 插件生成可共享状态以供使用。如果 PreScore 插件返回错误,则调度周期将中止。

Score

这些插件用于对已通过过滤阶段的节点进行排名。调度程序将为每个节点调用每个评分插件。将有一个定义明确的整数范围,表示最低和最高分数。在NormalizeScore阶段之后,调度程序将根据配置的插件权重组合来自所有插件的节点分数。

NormalizeScore

这些插件用于在调度程序计算节点的最终排名之前修改分数。将使用来自同一插件的Score结果调用为此扩展点注册的插件。每个调度周期每个插件调用一次。

例如,假设插件 BlinkingLightScorer 根据节点闪烁灯的数量对节点进行排名。

func ScoreNode(_ *v1.pod, n *v1.Node) (int, error) {
    return getBlinkingLightCount(n)
}

但是,与 NodeScoreMax 相比,闪烁灯的最大数量可能很小。要解决此问题,BlinkingLightScorer 还应该为此扩展点注册。

func NormalizeScores(scores map[string]int) {
    highest := 0
    for _, score := range scores {
        highest = max(highest, score)
    }
    for node, score := range scores {
        scores[node] = score*NodeScoreMax/highest
    }
}

如果有任何 NormalizeScore 插件返回错误,则调度周期将中止。

Reserve

实现 Reserve 接口的插件有两个方法,即 ReserveUnreserve,它们分别支持两个信息性调度阶段,称为 Reserve 和 Unreserve。维护运行时状态(也称为“有状态插件”)的插件应该使用这些阶段来接收调度程序的通知,了解何时为给定 Pod 保留和取消保留节点上的资源。

Reserve 阶段发生在调度程序实际将 Pod 绑定到其指定节点之前。它的存在是为了防止调度程序等待绑定成功时的竞争条件。每个 Reserve 插件的 Reserve 方法可能会成功或失败;如果一个 Reserve 方法调用失败,则不会执行后续插件,并且 Reserve 阶段被认为已失败。如果所有插件的 Reserve 方法都成功,则 Reserve 阶段被认为是成功的,并且将执行调度周期的其余部分和绑定周期。

如果 Reserve 阶段或之后的阶段失败,则会触发 Unreserve 阶段。发生这种情况时,将按照 Reserve 方法调用的相反顺序执行所有 Reserve 插件的 Unreserve 方法。此阶段用于清理与保留 Pod 关联的状态。

Permit

Permit 插件在每个 Pod 的调度周期结束时调用,以防止或延迟绑定到候选节点。Permit 插件可以执行以下三件事之一

  1. 批准
    一旦所有 Permit 插件都批准了 Pod,它就会被发送以进行绑定。

  2. 拒绝
    如果有任何 Permit 插件拒绝了 Pod,它将返回到调度队列。这将触发Reserve 插件中的 Unreserve 阶段。

  3. 等待(带超时)
    如果 Permit 插件返回“等待”,则 Pod 将保存在内部“等待”Pod 列表中,并且此 Pod 的绑定周期开始,但直接阻塞,直到获得批准。如果发生超时,等待将变为拒绝,并且 Pod 将返回到调度队列,从而触发Reserve 插件中的 Unreserve 阶段。

PreBind

这些插件用于在 Pod 绑定之前执行任何必要的工作。例如,预绑定插件可以在允许 Pod 在目标节点上运行之前,预先配置网络卷并将其挂载到目标节点上。

如果任何 PreBind 插件返回错误,则 Pod 将被 拒绝 并返回到调度队列。

Bind

这些插件用于将 Pod 绑定到节点。只有在所有 PreBind 插件都完成后,才会调用绑定插件。每个绑定插件都按配置的顺序调用。绑定插件可以选择是否处理给定的 Pod。如果绑定插件选择处理 Pod,则**将跳过其余的绑定插件**。

PostBind

这是一个信息性接口。在 Pod 成功绑定后,将调用绑定后插件。这是绑定周期的结束,可用于清理关联的资源。

插件 API

插件 API 分为两个步骤。首先,插件必须注册并进行配置,然后才能使用扩展点接口。扩展点接口具有以下形式。

type Plugin interface {
    Name() string
}

type QueueSortPlugin interface {
    Plugin
    Less(*v1.pod, *v1.pod) bool
}

type PreFilterPlugin interface {
    Plugin
    PreFilter(context.Context, *framework.CycleState, *v1.pod) error
}

// ...

插件配置

您可以在调度程序配置中启用或禁用插件。如果您使用的是 Kubernetes v1.18 或更高版本,则默认情况下会使用并启用大多数调度 插件

除了默认插件之外,您还可以实现自己的调度插件,并将它们与默认插件一起配置。您可以访问 scheduler-plugins 以了解更多详细信息。

如果您使用的是 Kubernetes v1.18 或更高版本,则可以将一组插件配置为调度程序配置文件,然后定义多个配置文件以适应各种工作负载。请访问 多个配置文件 了解更多信息。

上次修改时间:2024 年 2 月 19 日下午 1:54 PST:修复调度程序部分中的尾随空格 (2f298d2077)