Pod 开销
Kubernetes v1.24 [稳定]
在节点上运行 Pod 时,Pod 本身会占用一定数量的系统资源。这些资源是运行 Pod 内容器所需的资源之外的额外资源。在 Kubernetes 中,“Pod 开销”是一种计算 Pod 基础设施在容器请求和限制之上所消耗资源的方法。
在 Kubernetes 中,Pod 的开销是在 准入 时根据与 Pod 的 RuntimeClass 关联的开销设置的。
调度 Pod 时,除了容器资源请求的总和外,还会考虑 Pod 的开销。同样,kubelet 在确定 Pod cgroup 大小和执行 Pod 驱逐排名时,也会将 Pod 开销包括在内。
配置 Pod 开销
您需要确保使用定义了 overhead
字段的 RuntimeClass
。
使用示例
要使用 Pod 开销,您需要一个定义了 overhead
字段的 RuntimeClass。例如,您可以将以下 RuntimeClass 定义与虚拟化容器运行时(在本例中,Kata Containers 与 Firecracker 虚拟机监控程序相结合)一起使用,该运行时每个 Pod 使用大约 120MiB 用于虚拟机和客户机操作系统
# You need to change this example to match the actual runtime name, and per-Pod
# resource overhead, that the container runtime is adding in your cluster.
apiVersion: node.k8s.io/v1
kind: RuntimeClass
metadata:
name: kata-fc
handler: kata-fc
overhead:
podFixed:
memory: "120Mi"
cpu: "250m"
创建指定 kata-fc
RuntimeClass 处理程序的工作负载时,将在资源配额计算、节点调度以及 Pod cgroup 大小调整中考虑内存和 CPU 开销。
考虑运行给定的示例工作负载 test-pod
apiVersion: v1
kind: Pod
metadata:
name: test-pod
spec:
runtimeClassName: kata-fc
containers:
- name: busybox-ctr
image: busybox:1.28
stdin: true
tty: true
resources:
limits:
cpu: 500m
memory: 100Mi
- name: nginx-ctr
image: nginx
resources:
limits:
cpu: 1500m
memory: 100Mi
注意
如果在 Pod 定义中仅指定了limits
,则 kubelet 将从这些限制中推断出 requests
,并将其设置为与定义的 limits
相同。在准入时,RuntimeClass 准入控制器 会更新工作负载的 PodSpec,以包含 RuntimeClass 中描述的 overhead
。如果 PodSpec 已经定义了此字段,则 Pod 将被拒绝。在给定的示例中,由于仅指定了 RuntimeClass 名称,因此准入控制器会改变 Pod 以包含 overhead
。
在 RuntimeClass 准入控制器进行修改后,您可以检查更新后的 Pod 开销值
kubectl get pod test-pod -o jsonpath='{.spec.overhead}'
输出为
map[cpu:250m memory:120Mi]
如果定义了 ResourceQuota,则会计算容器请求的总和以及 overhead
字段。
当 kube-scheduler 决定哪个节点应该运行新的 Pod 时,调度器会考虑该 Pod 的 overhead
以及该 Pod 的容器请求总和。对于此示例,调度器会添加请求和开销,然后查找具有 2.25 个 CPU 和 320 MiB 可用内存的节点。
将 Pod 调度到节点后,该节点上的 kubelet 会为该 Pod 创建一个新的 cgroup。底层容器运行时将在该 Pod 中创建容器。
如果为每个容器定义了资源限制(Guaranteed QoS 或定义了限制的 Burstable QoS),则 kubelet 将为与该资源关联的 Pod cgroup 设置上限(CPU 为 cpu.cfs_quota_us,内存为 memory.limit_in_bytes)。此上限基于容器限制的总和加上 PodSpec 中定义的 overhead
。
对于 CPU,如果 Pod 是 Guaranteed 或 Burstable QoS,则 kubelet 将根据容器请求的总和加上 PodSpec 中定义的 overhead
设置 cpu.shares
。
以我们的示例为例,验证工作负载的容器请求
kubectl get pod test-pod -o jsonpath='{.spec.containers[*].resources.limits}'
容器请求总量为 2000m CPU 和 200MiB 内存
map[cpu: 500m memory:100Mi] map[cpu:1500m memory:100Mi]
将其与节点观察到的内容进行比较
kubectl describe node | grep test-pod -B2
输出显示请求为 2250m CPU 和 320MiB 内存。请求包括 Pod 开销
Namespace Name CPU Requests CPU Limits Memory Requests Memory Limits AGE
--------- ---- ------------ ---------- --------------- ------------- ---
default test-pod 2250m (56%) 2250m (56%) 320Mi (1%) 320Mi (1%) 36m
验证 Pod cgroup 限制
检查运行工作负载的节点上 Pod 的内存 cgroup。在以下示例中,crictl
用于节点上,它为 CRI 兼容的容器运行时提供了一个 CLI。这是一个高级示例,用于显示 Pod 开销行为,预计用户不需要直接在节点上检查 cgroup。
首先,在特定节点上,确定 Pod 标识符
# Run this on the node where the Pod is scheduled
POD_ID="$(sudo crictl pods --name test-pod -q)"
由此,您可以确定 Pod 的 cgroup 路径
# Run this on the node where the Pod is scheduled
sudo crictl inspectp -o=json $POD_ID | grep cgroupsPath
生成的 cgroup 路径包括 Pod 的 pause
容器。Pod 级 cgroup 位于上一级目录。
"cgroupsPath": "/kubepods/podd7f4b509-cf94-4951-9417-d1087c92a5b2/7ccf55aee35dd16aca4189c952d83487297f3cd760f1bbf09620e206e7d0c27a"
在这种特定情况下,Pod cgroup 路径为 kubepods/podd7f4b509-cf94-4951-9417-d1087c92a5b2
。验证 Pod 级 cgroup 的内存设置
# Run this on the node where the Pod is scheduled.
# Also, change the name of the cgroup to match the cgroup allocated for your pod.
cat /sys/fs/cgroup/memory/kubepods/podd7f4b509-cf94-4951-9417-d1087c92a5b2/memory.limit_in_bytes
这是 320 MiB,符合预期
335544320
可观察性
kube-state-metrics 中提供了一些 kube_pod_overhead_*
指标,以帮助识别何时正在使用 Pod 开销,并帮助观察使用定义的开销运行的工作负载的稳定性。
后续步骤
- 详细了解 RuntimeClass
- 阅读 PodOverhead 设计 增强提案以获取更多上下文信息