kubernetes升级后出现很多pod probe失败

背景

kubernetes集群版本从1.18升级到1.23后出现许多运行正常的pod,由于liveness probe失败导致重启,还有一些是readiness probe失败。

起初怀疑pod重启,不应该是kubernetes升级导致的,由于1.18和1.23版本的container hash算法没有修改,所以升级kubelet不会导致已经运行的container重新生成。后面排查到pod重启时间在kubernetes升级之后,不是升级那个时间。所以可以排除升级kubelet导致的重启。

探索knative里根据路径转发和header转发解决方案

目前knative v1.1.0版本还是基于域名进行转发流量到服务。

而大多数使用场景是:

  1. 服务对外域名一般都是固定的,而且可能有多个。
  2. 服务一般都是在域名的某一路径下面,即一个域名由多个服务组成。
  3. 灰度基于多个header头之间and or关系。

下面讨论如何实现这些需求