Aliyun ACK 集群 Flannel 多路由表故障

建议点击 查看原文 查看最新内容。

原文链接: https://typonotes.com/posts/2024/06/06/aliyun-ack-flannel-network-issue/

0. 环境

  1. Aliyun ACK 集群 (master 托管)
  2. Flannel 网络
  3. 多路由表

1. 故障现象

  1. 服务从外部访问 相应缓慢, 甚至 超时

  1. kubectl metrics 信息

  1. 跨节点的 Pod 网络不通, 但同节点正常。

  1. 无妨访问外网

2. 故障原因

(1)阿里云 ACK 集群 节点所在的 VPC (2)开启多个路由表 , 且 (3)集群使用 Flannal 网络时, 会造成 集群内 Pod 网络异常

但此时 节点功能正常, 即能访问公网, 节点之间访问正常。

如果网络插件使用 terway 则不会出现故障

3. 解决方法

根据文档 使用VPC的多路由表功能 说明, 在 集群 插件 CCM(Cloud Controller Manager) 中添加 VPC 下所有路由表 名称, 以 逗号 , 分割。

运维管理 -> 组件管理 -> 核心组件 -> Could Controller Manager

钞能力

穷则敌后穿插, 达则火力覆盖。

用多了云商产品, 一有问题就提单子, 都没有基础拍错能力了。