Pod 生命周期

本页面介绍 Pod 的生命周期。Pod 遵循定义的生命周期,从 Pending 阶段 开始,如果其至少一个主容器启动正常,则进入 Running 阶段,然后根据 Pod 中的任何容器是否终止失败,进入 SucceededFailed 阶段。

与单个应用程序容器一样,Pod 被认为是相对短暂(而非持久)的实体。Pod 被创建,分配一个唯一的 ID(UID),并被调度到节点上运行,直到终止(根据重启策略)或删除。如果 节点 死亡,则在该节点上运行(或计划运行)的 Pod 将被 标记为删除。控制平面在超时时间后将 Pod 标记为删除。

Pod 生命周期

当 Pod 运行时,kubelet 能够重启容器以处理某些类型的故障。在 Pod 中,Kubernetes 跟踪不同的容器 状态 并确定采取什么操作使 Pod 恢复正常。

在 Kubernetes API 中,Pod 同时具有规范和实际状态。Pod 对象的状态由一组 Pod 条件 组成。如果对你的应用程序有用,你还可以将 自定义就绪信息 注入到 Pod 的条件数据中。

Pod 在其生命周期中只会被 调度 一次;将 Pod 分配给特定节点称为*绑定*,选择使用哪个节点的过程称为*调度*。一旦 Pod 被调度并绑定到一个节点,Kubernetes 就会尝试在该节点上运行该 Pod。Pod 会在该节点上运行,直到它停止,或者直到 Pod 被 终止;如果 Kubernetes 无法在选定的节点上启动 Pod(例如,如果节点在 Pod 启动之前崩溃),则该特定 Pod 永远不会启动。

你可以使用 Pod 调度就绪 来延迟 Pod 的调度,直到其所有*调度门控*都被移除。例如,你可能希望定义一组 Pod,但仅在所有 Pod 都已创建后才触发调度。

Pod 和故障恢复

如果 Pod 中的一个容器失败,则 Kubernetes 可能会尝试重启该特定容器。阅读 Pod 如何处理容器问题 以了解更多信息。

然而,Pod 可能会以集群无法恢复的方式失败,在这种情况下,Kubernetes 不会尝试进一步修复 Pod;相反,Kubernetes 会删除 Pod 并依赖其他组件来提供自动修复。

如果 Pod 被调度到一个 节点,而该节点随后发生故障,则该 Pod 将被视为不健康,Kubernetes 最终会删除该 Pod。由于缺乏资源或节点维护,Pod 将无法在 驱逐 中幸存。

Kubernetes 使用了一个更高级别的抽象,称为 控制器,它负责管理相对可丢弃的 Pod 实例。

给定的 Pod(由 UID 定义)永远不会被“重新调度”到不同的节点;相反,该 Pod 可以被一个新的、几乎相同的 Pod 替换。如果你创建了一个替换 Pod,它甚至可以与旧 Pod 具有相同的名称(如 .metadata.name 中所示),但替换 Pod 将具有与旧 Pod 不同的 .metadata.uid

Kubernetes 不保证现有 Pod 的替换 Pod 会被调度到与被替换的旧 Pod 相同的节点。

关联的生命周期

当说某个东西与 Pod 具有相同的生命周期时,例如 ,这意味着只要该特定 Pod(具有该确切的 UID)存在,该东西就存在。如果该 Pod 因任何原因被删除,即使创建了一个相同的替换 Pod,相关的东西(在本例中为卷)也会被销毁并重新创建。

A multi-container Pod that contains a file puller sidecar and a web server. The Pod uses an ephemeral emptyDir volume for shared storage between the containers.

图 1.

一个多容器 Pod,包含一个文件提取器 边车 和一个 Web 服务器。该 Pod 使用 短暂的 emptyDir 来实现容器之间的共享存储。

Pod 阶段

Pod 的 status 字段是一个 PodStatus 对象,它有一个 phase 字段。

Pod 的阶段是对 Pod 生命周期中所处位置的简单、高级的总结。该阶段并非旨在全面汇总对容器或 Pod 状态的观察结果,也不旨在成为一个全面的状态机。

Pod 阶段值的数量和含义受到严格控制。除了此处记录的内容外,不应对具有给定 phase 值的 Pod 做出任何假设。

以下是 phase 的可能值

描述
PendingPod 已被 Kubernetes 集群接受,但一个或多个容器尚未设置并准备好运行。这包括 Pod 等待被调度的时间以及通过网络下载容器镜像的时间。
RunningPod 已绑定到一个节点,并且所有容器都已创建。至少有一个容器仍在运行,或者正在启动或重启过程中。
SucceededPod 中的所有容器都已成功终止,并且不会被重启。
FailedPod 中的所有容器都已终止,并且至少有一个容器终止失败。也就是说,容器要么以非零状态退出,要么被系统终止,并且没有设置为自动重启。
Unknown由于某种原因,无法获取 Pod 的状态。此阶段通常是由于与 Pod 应该运行的节点通信时出错而发生的。

从 Kubernetes 1.27 开始,kubelet 会将已删除的 Pod(静态 Pod 和没有终结器的 强制删除的 Pod 除外)在其从 API 服务器删除之前转换为终止阶段(FailedSucceeded,具体取决于 Pod 容器的退出状态)。

如果一个节点死亡或与集群的其余部分断开连接,Kubernetes 将应用一个策略,将丢失节点上的所有 Pod 的 phase 设置为 Failed。

容器状态

除了 Pod 整体的 阶段 之外,Kubernetes 还会跟踪 Pod 内每个容器的状态。您可以使用 容器生命周期钩子 在容器生命周期的特定时间点触发事件运行。

一旦 调度器 将 Pod 分配给节点,kubelet 就会使用 容器运行时 开始为该 Pod 创建容器。容器有三种可能的状态:WaitingRunningTerminated

要检查 Pod 容器的状态,可以使用 kubectl describe pod <pod-name>。输出将显示该 Pod 内每个容器的状态。

每个状态都有其特定的含义

Waiting(等待中)

如果容器既不是 Running 状态也不是 Terminated 状态,则它处于 Waiting 状态。处于 Waiting 状态的容器仍在运行其完成启动所需的操作:例如,从容器镜像仓库中拉取容器镜像,或应用 Secret 数据。当您使用 kubectl 查询包含处于 Waiting 状态的容器的 Pod 时,您还会看到一个 Reason 字段,用于总结容器处于该状态的原因。

Running

Running(运行中)

Running 状态表示容器正在正常执行。如果配置了 postStart 钩子,则它已经执行并完成。当您使用 kubectl 查询包含处于 Running 状态的容器的 Pod 时,您还会看到有关容器何时进入 Running 状态的信息。

Terminated(已终止)

处于 Terminated 状态的容器已开始执行,然后要么运行完成,要么由于某种原因失败。当您使用 kubectl 查询包含处于 Terminated 状态的容器的 Pod 时,您会看到一个原因、一个退出代码,以及该容器执行期间的开始和结束时间。

如果容器配置了 preStop 钩子,则该钩子会在容器进入 Terminated 状态之前运行。

Pod 如何处理容器问题

  1. Kubernetes 使用 Pod spec 中定义的 restartPolicy 来管理 Pod 内的容器故障。此策略决定了 Kubernetes 如何对因错误或其他原因而退出的容器做出反应,其遵循以下顺序
  2. **初始崩溃**:Kubernetes 会根据 Pod 的 restartPolicy 尝试立即重启。
  3. **重复崩溃**:在初始崩溃后,Kubernetes 会对后续重启应用指数退避延迟,如 restartPolicy 中所述。这可以防止快速、重复的重启尝试使系统过载。
  4. **CrashLoopBackOff 状态**:这表示退避延迟机制当前对处于崩溃循环中(反复失败和重启)的给定容器有效。

**退避重置**:如果容器成功运行了一段时间(例如 10 分钟),Kubernetes 会重置退避延迟,将任何新的崩溃视为第一次崩溃。

在实践中,CrashLoopBackOff 是一种条件或事件,当 Pod 中的容器无法正常启动并随后在循环中不断尝试和失败时,可能会在 kubectl 命令的输出中看到它,同时描述或列出 Pod。

换句话说,当容器进入崩溃循环时,Kubernetes 会应用 容器重启策略 中提到的指数退避延迟。这种机制可以防止故障容器通过连续的失败启动尝试使系统过载。

  • CrashLoopBackOff 的原因可能包括以下问题
  • 导致容器退出的应用程序错误。
  • 配置错误,例如不正确的环境变量或缺少配置文件。
  • 资源限制,容器可能没有足够的内存或 CPU 来正常启动。
  • 如果应用程序未在预期时间内开始提供服务,则运行状况检查失败。

探针部分 中所述,容器活跃性探针或启动探针返回 Failure 结果。

  1. 要调查 CrashLoopBackOff 问题的根本原因,用户可以
  2. **检查日志**:使用 kubectl logs <pod-name> 检查容器的日志。这通常是诊断导致崩溃问题的最直接方法。
  3. **检查事件**:使用 kubectl describe pod <pod-name> 查看 Pod 的事件,这些事件可以提供有关配置或资源问题的提示。
  4. **查看配置**:确保 Pod 配置(包括环境变量和挂载卷)正确,并且所有必需的外部资源都可用。
  5. **检查资源限制**:确保容器分配了足够的 CPU 和内存。有时,增加 Pod 定义中的资源可以解决问题。

**调试应用程序**:应用程序代码中可能存在错误或配置错误。在本地或开发环境中运行此容器镜像可以帮助诊断特定于应用程序的问题。

容器重启策略

Pod 的 spec 有一个 restartPolicy 字段,其可能值为 Always、OnFailure 和 Never。默认值为 Always。

  • Pod 的 restartPolicy 适用于 Pod 中的 应用程序容器 和常规 init 容器Sidecar 容器 忽略 Pod 级别的 restartPolicy 字段:在 Kubernetes 中,Sidecar 容器被定义为 initContainers 中的一个条目,其容器级别的 restartPolicy 设置为 Always。对于因错误而退出的 init 容器,如果 Pod 级别的 restartPolicyOnFailureAlways,则 kubelet 会重启 init 容器。
  • Always:在任何终止后自动重启容器。
  • OnFailure:仅在容器因错误退出(非零退出状态)时才重启容器。

Never:不会自动重启已终止的容器。

当 kubelet 根据配置的重启策略处理容器重启时,这仅适用于在同一 Pod 内并在同一节点上运行的替换容器的重启。在 Pod 中的容器退出后,kubelet 会以指数退避延迟(10 秒、20 秒、40 秒……)重启它们,该延迟上限为 300 秒(5 分钟)。一旦容器运行 10 分钟没有任何问题,kubelet 就会重置该容器的重启退避计时器。Sidecar 容器和 Pod 生命周期 解释了在为 init 容器 指定 restartpolicy 字段时其行为。

Pod 条件

  • Pod 有一个 PodStatus,它有一个 PodConditions 数组,Pod 通过该数组已经或尚未通过。Kubelet 管理以下 PodConditions
  • PodScheduled:Pod 已调度到节点。
  • PodReadyToStartContainers:(测试版功能;默认 启用)Pod 沙箱已成功创建并配置了网络。
  • ContainersReady:Pod 中的所有容器都已准备就绪。
  • Initialized:所有 init 容器 都已成功完成。
Ready:Pod 能够处理请求,并且应该添加到所有匹配服务的负载均衡池中。描述
字段名称类型
此 Pod 条件的名称。状态
指示该条件是否适用,可能的值为“True”、“False”或“Unknown”。lastProbeTime
上次探测 Pod 条件的时间戳。lastTransitionTime
Pod 上次从一种状态转换到另一种状态的时间戳。原因
机器可读的 UpperCamelCase 文本,指示条件上次转换的原因。消息

人类可读的消息,指示有关上次状态转换的详细信息。

Pod 就绪状态

功能状态: Kubernetes v1.14 [稳定]

您的应用程序可以将额外的反馈或信号注入到 PodStatus 中:*Pod 就绪状态*。要使用此功能,请在 Pod 的 spec 中设置 readinessGates,以指定 kubelet 用于评估 Pod 就绪状态的其他条件列表。

就绪状态门由 Pod 的 status.condition 字段的当前状态决定。如果 Kubernetes 在 Pod 的 status.conditions 字段中找不到这样的条件,则该条件的状态默认为“False”。

kind: Pod
...
spec:
  readinessGates:
    - conditionType: "www.example.com/feature-1"
status:
  conditions:
    - type: Ready                              # a built in PodCondition
      status: "False"
      lastProbeTime: null
      lastTransitionTime: 2018-01-01T00:00:00Z
    - type: "www.example.com/feature-1"        # an extra PodCondition
      status: "False"
      lastProbeTime: null
      lastTransitionTime: 2018-01-01T00:00:00Z
  containerStatuses:
    - containerID: docker://abcd...
      ready: true
...

以下是一个示例

您添加的 Pod 条件必须具有符合 Kubernetes 标签键格式 的名称。

Pod 就绪状态的状态

kubectl patch 命令不支持修补对象状态。要为 Pod 设置这些 status.conditions,应用程序和 操作器 应该使用 PATCH 操作。您可以使用 Kubernetes 客户端库 编写代码来设置 Pod 就绪状态的自定义 Pod 条件。

  • 对于使用自定义条件的 Pod,**仅**当以下两个语句都适用时,该 Pod 才被评估为就绪
  • Pod 中的所有容器都已准备就绪。

readinessGates 中指定的所有条件均为 True

当 Pod 的容器已准备就绪,但至少有一个自定义条件缺失或为 False 时,kubelet 会将 Pod 的 条件 设置为 ContainersReady

Pod 网络就绪状态

在其早期开发过程中,此条件名为 PodHasNetwork

在 Pod 被调度到节点后,它需要被 kubelet 准入,并且需要挂载任何所需的存储卷。一旦这些阶段完成,kubelet 就会与容器运行时(使用 容器运行时接口 (CRI))一起设置运行时沙箱并为 Pod 配置网络。如果 PodReadyToStartContainersCondition 功能门控 已启用(对于 Kubernetes 1.30,默认情况下启用),则 PodReadyToStartContainers 条件将添加到 Pod 的 status.conditions 字段中。

  • 当 Kubelet 检测到 Pod 没有配置网络的运行时沙箱时,它会将 PodReadyToStartContainers 条件设置为 False。这会在以下情况下发生
  • 在 Pod 生命周期的早期,当 kubelet 尚未开始使用容器运行时为 Pod 设置沙箱时。
    • 节点重新启动,但 Pod 未被驱逐
    • 对于使用虚拟机进行隔离的容器运行时,Pod 沙箱虚拟机重新启动,这需要创建新的沙箱和全新的容器网络配置。

在运行时插件成功完成 Pod 的沙箱创建和网络配置后,kubelet 会将 PodReadyToStartContainers 条件设置为 True。在 PodReadyToStartContainers 条件设置为 True 后,kubelet 可以开始拉取容器镜像并创建容器。

对于具有初始化容器的 Pod,kubelet 在初始化容器成功完成(在运行时插件成功创建沙箱和网络配置之后)后,将 Initialized 条件设置为 True。对于没有初始化容器的 Pod,kubelet 会在沙箱创建和网络配置开始之前将 Initialized 条件设置为 True

容器探针

探针是由 kubelet 定期对容器执行的诊断。为了执行诊断,kubelet 可以在容器内执行代码,也可以发出网络请求。

检查机制

可以使用探针通过四种不同的方式来检查容器。每个探针都必须明确定义这四种机制中的一种

exec
在容器内执行指定的命令。如果命令以状态码 0 退出,则诊断被视为成功。
grpc
使用 gRPC 执行远程过程调用。目标应该实现 gRPC 健康检查。如果响应的 statusSERVING,则诊断被视为成功。
httpGet
对 Pod 的 IP 地址上的指定端口和路径执行 HTTP GET 请求。如果响应的状态码大于或等于 200 且小于 400,则诊断被视为成功。
tcpSocket
对 Pod 的 IP 地址上的指定端口执行 TCP 检查。如果端口打开,则诊断被视为成功。如果远程系统(容器)在打开连接后立即关闭连接,则这也被视为健康。

探针结果

每个探针都有以下三种结果之一

成功
容器通过了诊断。
失败
容器未通过诊断。
Unknown
诊断失败(不应采取任何行动,kubelet 将进行进一步检查)。

探针类型

kubelet 可以选择对正在运行的容器执行三种探针并对其做出反应

livenessProbe
指示容器是否正在运行。如果活动性探针失败,kubelet 将终止容器,并且容器将根据其 重启策略 进行重启。如果容器没有提供活动性探针,则默认状态为 Success
readinessProbe
指示容器是否已准备好响应请求。如果就绪性探针失败,则端点控制器会从与 Pod 匹配的所有服务的端点中删除 Pod 的 IP 地址。初始延迟之前的默认就绪状态为 Failure。如果容器没有提供就绪性探针,则默认状态为 Success
startupProbe
指示容器内的应用程序是否已启动。如果提供了启动探针,则所有其他探针都将被禁用,直到它成功为止。如果启动探针失败,kubelet 将终止容器,并且容器将根据其 重启策略 进行重启。如果容器没有提供启动探针,则默认状态为 Success

有关如何设置活动性、就绪性或启动探针的更多信息,请参阅 配置活动性、就绪性和启动探针

什么时候应该使用活动性探针?

如果容器中的进程在遇到问题或变得不健康时能够自行崩溃,则不一定需要活动性探针;kubelet 将根据 Pod 的 restartPolicy 自动执行正确的操作。

如果您希望在探针失败时终止并重启容器,请指定活动性探针,并将 restartPolicy 指定为 Always 或 OnFailure。

什么时候应该使用就绪性探针?

如果您只想在探针成功时才开始向 Pod 发送流量,请指定就绪性探针。在这种情况下,就绪性探针可能与活动性探针相同,但规范中存在就绪性探针意味着 Pod 将在不接收任何流量的情况下启动,并且仅在探针开始成功后才开始接收流量。

如果您希望容器能够自行关闭以进行维护,则可以指定一个就绪性探针,该探针检查特定于就绪性的端点,该端点与活动性探针不同。

如果您的应用程序严格依赖于后端服务,则可以同时实现活动性探针和就绪性探针。活动性探针在应用程序本身健康时通过,但就绪性探针还会检查每个所需的后端服务是否可用。这有助于您避免将流量定向到只能响应错误消息的 Pod。

如果您的容器在启动期间需要加载大量数据、配置文件或迁移,则可以使用 启动探针。但是,如果您想检测已失败的应用程序与仍在处理其启动数据的应用程序之间的区别,则您可能更喜欢就绪性探针。

什么时候应该使用启动探针?

启动探针对于包含需要很长时间才能投入使用的容器的 Pod 非常有用。您可以为探测容器启动过程配置单独的配置,而不是设置较长的活动性间隔,从而允许比活动性间隔更长的时间。

如果您的容器通常在超过 initialDelaySeconds + failureThreshold × periodSeconds 的时间内启动,则应指定一个启动探针,该探针检查与活动性探针相同的端点。periodSeconds 的默认值为 10 秒。然后,您应该将 failureThreshold 设置得足够高,以允许容器启动,而无需更改活动性探针的默认值。这有助于防止死锁。

Pod 的终止

由于 Pod 表示在集群中的节点上运行的进程,因此允许这些进程在不再需要时正常终止(而不是使用 KILL 信号突然停止并且没有机会清理)非常重要。

设计目标是让您能够请求删除并知道进程何时终止,同时也能确保删除最终完成。当您请求删除 Pod 时,集群会在允许强制终止 Pod 之前记录并跟踪预期的宽限期。在强制关闭跟踪到位后,kubelet 会尝试正常关闭。

通常,通过这种 Pod 的正常终止,kubelet 会向容器运行时发出请求,尝试通过首先向每个容器中的主进程发送 TERM(也称为 SIGTERM)信号(带有宽限期超时)来停止 Pod 中的容器。停止容器的请求由容器运行时异步处理。不能保证处理这些请求的顺序。许多容器运行时会遵守容器镜像中定义的 STOPSIGNAL 值,如果不同,则会发送容器镜像配置的 STOPSIGNAL 而不是 TERM。一旦宽限期到期,就会向所有剩余的进程发送 KILL 信号,然后从 API 服务器 中删除 Pod。如果在等待进程终止时重启了 kubelet 或容器运行时的管理服务,则集群将从头开始重试,包括完整的原始宽限期。

Pod 终止流程,以示例说明

  1. 您使用 kubectl 工具手动删除特定的 Pod,并使用默认的宽限期(30 秒)。

  2. API 服务器中的 Pod 会更新为 Pod 被视为“已死”的时间以及宽限期。如果您使用 kubectl describe 检查要删除的 Pod,则该 Pod 会显示为“正在终止”。在运行 Pod 的节点上:一旦 kubelet 看到 Pod 已标记为正在终止(已设置正常关闭持续时间),kubelet 就会开始本地 Pod 关闭过程。

    1. 如果 Pod 的某个容器定义了 preStop 钩子 并且 Pod 规范中的 terminationGracePeriodSeconds 未设置为 0,则 kubelet 会在容器内运行该钩子。默认的 terminationGracePeriodSeconds 设置为 30 秒。

      如果 preStop 钩子在宽限期到期后仍在运行,则 kubelet 会请求一个小的、一次性的 2 秒宽限期延长。

    2. kubelet 触发容器运行时向每个容器内的进程 1 发送 TERM 信号。

      如果 Pod 定义了任何 sidecar 容器,则会有 特殊的排序。否则,Pod 中的容器会在不同的时间以任意顺序接收 TERM 信号。如果关闭顺序很重要,请考虑使用 preStop 钩子进行同步(或切换到使用 sidecar 容器)。

  3. 在 kubelet 开始正常关闭 Pod 的同时,控制平面会评估是否从 EndpointSlice(和 Endpoints)对象中删除该正在关闭的 Pod,其中这些对象表示具有已配置 选择器服务ReplicaSets 和其他工作负载资源不再将正在关闭的 Pod 视为有效的、正在服务的副本。

    缓慢关闭的 Pod 不应继续处理常规流量,而应开始终止并完成打开连接的处理。某些应用程序需要执行超出完成打开连接的操作,并且需要更优雅的终止方式,例如,会话排空和完成。

    表示正在终止的 Pod 的任何端点都不会立即从 EndpointSlices 中删除,并且 EndpointSlice API(以及旧版 Endpoints API)会公开指示终止状态的状态。终止端点的ready状态始终为false(为了向后兼容 1.26 之前的版本),因此负载均衡器不会将其用于常规流量。

    如果需要在终止 Pod 上进行流量排空,则可以将实际的准备情况作为条件serving进行检查。您可以在教程Pod 和端点终止流程中找到有关如何实现连接排空的更多详细信息

  4. kubelet 确保 Pod 已关闭并终止

    1. 当宽限期到期时,如果 Pod 中仍然有任何容器正在运行,则 kubelet 会触发强制关闭。容器运行时会向 Pod 中任何容器中仍在运行的任何进程发送SIGKILL。如果该容器运行时使用隐藏的pause容器,则 kubelet 还会清理该容器。
    2. kubelet 会将 Pod 转换到终止阶段(FailedSucceeded,具体取决于其容器的最终状态)。
    3. kubelet 通过将宽限期设置为 0(立即删除)来触发从 API 服务器强制删除 Pod 对象。
    4. API 服务器会删除 Pod 的 API 对象,该对象随后将无法再被任何客户端看到。

强制 Pod 终止

默认情况下,所有删除操作都会在 30 秒内正常完成。kubectl delete命令支持--grace-period=<seconds>选项,该选项允许您覆盖默认值并指定自己的值。

将宽限期设置为0会从 API 服务器中强制立即删除 Pod。如果 Pod 仍在节点上运行,则强制删除会触发 kubelet 开始立即清理。

使用 kubectl 时,您必须指定一个附加标志--force以及--grace-period=0才能执行强制删除。

执行强制删除时,API 服务器不会等待来自 kubelet 的确认,即 Pod 已在其运行的节点上终止。它会立即在 API 中删除 Pod,以便可以使用相同的名称创建新的 Pod。在节点上,设置为立即终止的 Pod 在被强制终止之前仍将获得一小段宽限期。

如果您需要强制删除属于 StatefulSet 的 Pod,请参阅从 StatefulSet 中删除 Pod的任务文档。

Pod 关闭和边车容器

如果您的 Pod 包含一个或多个边车容器(具有 Always 重启策略的 init 容器),则 kubelet 将延迟向这些边车容器发送 TERM 信号,直到最后一个主容器完全终止。边车容器将按照它们在 Pod 规范中定义的相反顺序终止。这确保了边车容器在不再需要它们之前继续为 Pod 中的其他容器提供服务。

这意味着主容器的缓慢终止也会延迟边车容器的终止。如果在终止过程完成之前宽限期到期,则 Pod 可能会进入强制终止。在这种情况下,Pod 中所有剩余的容器将以较短的宽限期同时终止。

同样,如果 Pod 具有超出终止宽限期的preStop钩子,则可能会发生紧急终止。通常,如果您已使用preStop钩子来控制终止顺序而没有边车容器,则现在可以删除它们并允许 kubelet 自动管理边车终止。

Pod 的垃圾回收

对于失败的 Pod,API 对象会保留在集群的 API 中,直到人工或控制器进程显式删除它们。

Pod 垃圾回收器 (PodGC) 是控制平面中的一个控制器,当 Pod 的数量超过配置的阈值(由 kube-controller-manager 中的terminated-pod-gc-threshold确定)时,它会清理已终止的 Pod(阶段为SucceededFailed)。这可以避免随着时间的推移创建和终止 Pod 时出现资源泄漏。

此外,PodGC 还会清理满足以下任何条件的 Pod

  1. 是孤立 Pod - 绑定到不再存在的节点,
  2. 是未调度的终止 Pod,
  3. 是终止 Pod,绑定到被node.kubernetes.io/out-of-service污染的非就绪节点,当启用NodeOutOfServiceVolumeDetach功能门控时。

当启用PodDisruptionConditions功能门控时,除了清理 Pod 之外,如果 Pod 处于非终止阶段,PodGC 还会将其标记为失败。此外,PodGC 在清理孤立 Pod 时会添加 Pod 中断条件。有关更多详细信息,请参阅Pod 中断条件

下一步

上次修改时间:2024 年 5 月 24 日下午 11:25 PST:细微整理 (77407a728a)