BUG：prometheus-k8s 瞬间高占用，依次把所有节点全部打垮失联！ #2261

xiasf · 2023-11-17T03:42:21Z

KubeSphere 版本 : v3.3.2

prom/prometheus:v2.34.0

问题描述：使用一段时间后，经常发现有节点卡死失去响应，导致节点失联。一旦发生这个情况，很快其它节点接着依次出现卡死失联。在找了相关的资料后终于定位到了是负载 prometheus-k8s 的问题，尝试限制过它的资源使用也还是偶而出现问题，最终停止这个负载，问题不再出现了。

附相关资料：

间歇性每隔一会就把所有节点打垮，节点变得未就绪，使其完全卡死，只能在阿里控制台强制重启才能恢复。

prometheus TSDB写错误，所以重启会疯狂攫取CPU内存资源，最后也无法读取TSDB数据，最终把节点系统资源耗尽，影响别的服务。

Provide feedback