调试 DNS 解析
本页面提供有关诊断 DNS 问题的提示。
准备工作
您需要有一个 Kubernetes 集群,并且 kubectl 命令行工具必须配置为与您的集群通信。建议在至少有两个节点且不充当控制平面主机的集群上运行本教程。如果您还没有集群,则可以使用 minikube 创建一个集群,或者可以使用以下 Kubernetes 游乐场之一
您的集群必须配置为使用 CoreDNS 插件 或其前身 kube-dns。
您的 Kubernetes 服务器版本必须为 v1.6 或更高版本。要检查版本,请输入 kubectl version
。
创建一个简单的 Pod 用作测试环境
apiVersion: v1
kind: Pod
metadata:
name: dnsutils
namespace: default
spec:
containers:
- name: dnsutils
image: registry.k8s.io/e2e-test-images/jessie-dnsutils:1.3
command:
- sleep
- "infinity"
imagePullPolicy: IfNotPresent
restartPolicy: Always
使用该清单创建一个 Pod
kubectl apply -f https://k8s.io/examples/admin/dns/dnsutils.yaml
pod/dnsutils created
…并验证其状态
kubectl get pods dnsutils
NAME READY STATUS RESTARTS AGE
dnsutils 1/1 Running 0 <some-time>
该 Pod 运行后,您可以在该环境中执行 nslookup
。如果您看到类似以下内容,则表示 DNS 工作正常。
kubectl exec -i -t dnsutils -- nslookup kubernetes.default
Server: 10.0.0.10
Address 1: 10.0.0.10
Name: kubernetes.default
Address 1: 10.0.0.1
如果 nslookup
命令失败,请检查以下内容
首先检查本地 DNS 配置
查看 resolv.conf 文件的内容。(有关更多信息,请参阅 自定义 DNS 服务 和下面的 已知问题)
kubectl exec -ti dnsutils -- cat /etc/resolv.conf
验证搜索路径和名称服务器是否设置如下(请注意,不同云提供商的搜索路径可能有所不同)
search default.svc.cluster.local svc.cluster.local cluster.local google.internal c.gce_project_id.internal
nameserver 10.0.0.10
options ndots:5
以下错误表示 CoreDNS(或 kube-dns)插件或相关服务出现问题
kubectl exec -i -t dnsutils -- nslookup kubernetes.default
Server: 10.0.0.10
Address 1: 10.0.0.10
nslookup: can't resolve 'kubernetes.default'
或
kubectl exec -i -t dnsutils -- nslookup kubernetes.default
Server: 10.0.0.10
Address 1: 10.0.0.10 kube-dns.kube-system.svc.cluster.local
nslookup: can't resolve 'kubernetes.default'
检查 DNS Pod 是否正在运行
使用 kubectl get pods
命令验证 DNS Pod 是否正在运行。
kubectl get pods --namespace=kube-system -l k8s-app=kube-dns
NAME READY STATUS RESTARTS AGE
...
coredns-7b96bf9f76-5hsxb 1/1 Running 0 1h
coredns-7b96bf9f76-mvmmt 1/1 Running 0 1h
...
注意
对于 CoreDNS 和 kube-dns 部署,标签k8s-app
的值均为 kube-dns
。如果您发现没有 CoreDNS Pod 正在运行,或者 Pod 已失败/完成,则 DNS 插件可能未在您当前环境中默认部署,您需要手动部署它。
检查 DNS Pod 中的错误
使用 kubectl logs
命令查看 DNS 容器的日志。
对于 CoreDNS
kubectl logs --namespace=kube-system -l k8s-app=kube-dns
以下是正常 CoreDNS 日志的示例
.:53
2018/08/15 14:37:17 [INFO] CoreDNS-1.2.2
2018/08/15 14:37:17 [INFO] linux/amd64, go1.10.3, 2e322f6
CoreDNS-1.2.2
linux/amd64, go1.10.3, 2e322f6
2018/08/15 14:37:17 [INFO] plugin/reload: Running configuration MD5 = 24e6c59e83ce706f07bcc82c31b1ea1c
查看日志中是否有任何可疑或意外消息。
DNS 服务是否已启动?
使用 kubectl get service
命令验证 DNS 服务是否已启动。
kubectl get svc --namespace=kube-system
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
...
kube-dns ClusterIP 10.0.0.10 <none> 53/UDP,53/TCP 1h
...
注意
对于 CoreDNS 和 kube-dns 部署,服务名称均为kube-dns
。如果您已创建服务,或者在默认情况下应创建服务但未出现,请参阅 调试服务 以获取更多信息。
是否已公开 DNS 端点?
您可以使用 kubectl get endpoints
命令验证 DNS 端点是否已公开。
kubectl get endpoints kube-dns --namespace=kube-system
NAME ENDPOINTS AGE
kube-dns 10.180.3.17:53,10.180.3.17:53 1h
如果您没有看到端点,请参阅 调试服务 文档中的端点部分。
有关其他 Kubernetes DNS 示例,请参阅 Kubernetes GitHub 存储库中的 cluster-dns 示例。
是否正在接收/处理 DNS 查询?
您可以通过将 log
插件添加到 CoreDNS 配置(也称为 Corefile)来验证 CoreDNS 是否正在接收查询。CoreDNS Corefile 保存在名为 coredns
的 ConfigMap 中。要编辑它,请使用以下命令
kubectl -n kube-system edit configmap coredns
然后,按照以下示例在 Corefile 部分中添加 log
apiVersion: v1
kind: ConfigMap
metadata:
name: coredns
namespace: kube-system
data:
Corefile: |
.:53 {
log
errors
health
kubernetes cluster.local in-addr.arpa ip6.arpa {
pods insecure
upstream
fallthrough in-addr.arpa ip6.arpa
}
prometheus :9153
forward . /etc/resolv.conf
cache 30
loop
reload
loadbalance
}
保存更改后,Kubernetes 可能需要一两分钟才能将这些更改传播到 CoreDNS Pod。
接下来,进行一些查询并查看本文档上述部分中的日志。如果 CoreDNS Pod 正在接收查询,您应该会在日志中看到它们。
以下是日志中查询的示例
.:53
2018/08/15 14:37:15 [INFO] CoreDNS-1.2.0
2018/08/15 14:37:15 [INFO] linux/amd64, go1.10.3, 2e322f6
CoreDNS-1.2.0
linux/amd64, go1.10.3, 2e322f6
2018/09/07 15:29:04 [INFO] plugin/reload: Running configuration MD5 = 162475cdf272d8aa601e6fe67a6ad42f
2018/09/07 15:29:04 [INFO] Reloading complete
172.17.0.18:41675 - [07/Sep/2018:15:29:11 +0000] 59925 "A IN kubernetes.default.svc.cluster.local. udp 54 false 512" NOERROR qr,aa,rd,ra 106 0.000066649s
CoreDNS 是否具有足够的权限?
CoreDNS 必须能够列出 服务 和 端点 相关资源,才能正确解析服务名称。
示例错误消息
2022-03-18T07:12:15.699431183Z [INFO] 10.96.144.227:52299 - 3686 "A IN serverproxy.contoso.net.cluster.local. udp 52 false 512" SERVFAIL qr,aa,rd 145 0.000091221s
首先,获取 system:coredns
的当前 ClusterRole
kubectl describe clusterrole system:coredns -n kube-system
预期输出
PolicyRule:
Resources Non-Resource URLs Resource Names Verbs
--------- ----------------- -------------- -----
endpoints [] [] [list watch]
namespaces [] [] [list watch]
pods [] [] [list watch]
services [] [] [list watch]
endpointslices.discovery.k8s.io [] [] [list watch]
如果缺少任何权限,请编辑 ClusterRole 以添加它们
kubectl edit clusterrole system:coredns -n kube-system
EndpointSlices 权限的示例插入
...
- apiGroups:
- discovery.k8s.io
resources:
- endpointslices
verbs:
- list
- watch
...
您是否位于服务的正确命名空间中?
未指定命名空间的 DNS 查询仅限于 Pod 的命名空间。
如果 Pod 和服务的命名空间不同,则 DNS 查询必须包含服务的命名空间。
此查询仅限于 Pod 的命名空间
kubectl exec -i -t dnsutils -- nslookup <service-name>
此查询指定了命名空间
kubectl exec -i -t dnsutils -- nslookup <service-name>.<namespace>
要详细了解名称解析,请参阅 服务和 Pod 的 DNS。
已知问题
某些 Linux 发行版(例如 Ubuntu)默认使用本地 DNS 解析器(systemd-resolved)。Systemd-resolved 会移动 /etc/resolv.conf
并将其替换为一个存根文件,这会导致在解析上游服务器中的名称时出现致命转发循环。可以通过使用 kubelet 的 --resolv-conf
标志指向正确的 resolv.conf
来手动解决此问题(对于 systemd-resolved
,它是 /run/systemd/resolve/resolv.conf
)。kubeadm 会自动检测 systemd-resolved
,并相应地调整 kubelet 标志。
默认情况下,Kubernetes 安装不会将节点的 resolv.conf
文件配置为使用集群 DNS,因为该过程本质上是特定于发行版的。这可能最终会实现。
默认情况下,Linux 的 libc(也称为 glibc)对 DNS nameserver
记录的限制为 3 个,而 Kubernetes 需要使用 1 个 nameserver
记录。这意味着,如果本地安装已使用 3 个 nameserver
,则其中一些条目将丢失。要解决此限制,节点可以运行 dnsmasq
,它将提供更多 nameserver
条目。您也可以使用 kubelet 的 --resolv-conf
标志。
如果您使用 Alpine 3.17 或更早版本作为基础镜像,则由于 Alpine 的设计问题,DNS 可能无法正常工作。在 musl 1.24 版本之前,DNS 存根解析器不包含 TCP 回退,这意味着任何超过 512 字节的 DNS 调用都将失败。请将您的镜像升级到 Alpine 3.18 或更高版本。
后续步骤
- 请参阅 在集群中自动扩展 DNS 服务。
- 阅读 服务和 Pod 的 DNS