prometheus

打造云原生大型分布式监控系统(四): Kvass+Thanos 监控超大规模容器集群

目录 概述 有 Thanos 不够吗 ? 什么是 Kvass ? 部署实践 部署准备 部署 Kvass 部署 thanos-query 小结 概述 继上一篇 Thanos 部署与实践 发布半年多之后,随着技术的发展,本系列又迎来了一次更新。本文将介绍如何结合 Kvass 与 Thanos,来更好的实现大规模容器集群场景下的监控。

打造云原生大型分布式监控系统(三): Thanos 部署与实践

目录 视频 概述 部署方式 方案选型 Sidecar or Receiver 评估是否需要 Ruler 评估是否需要 Store Gateway 与 Compact 部署实践 准备对象存储配置 给 Prometheus 加上 Sidecar 安装 Query 安装 Store Gateway 安装 Ruler 安装 Compact 安装 Receiver 指定 Query 为数据源 总结 视频 附上本系列完整视频 打造云原生大型分布式监控系统(一): 大规模场景下 Prometheus 的优化手段 https://www.bilibili.com/video/BV17C4y1x7HE 打造云原生大型分布式监控系统(二): Thanos 架构详解 https://www.bilibili.com/video/BV1Vk4y1R7S9 打造云原生大型分布式监控系统(三): Thanos 部署与实践 https://www.bilibili.com/video/BV16g4y187HD 概述 上一篇 Thanos 架构详解 我们深入理解了 thanos 的架构设计与实现原理,现在我们来聊聊实战,分享一下如何部署和使用 Thanos。

打造云原生大型分布式监控系统(二): Thanos 架构详解

目录 概述 Thanos 架构 架构设计剖析 Query 与 Sidecar Store Gateway Ruler Compact 再看架构图 Sidecar 模式与 Receiver 模式 总结 概述 之前在 大规模场景下 Prometheus 的优化手段 中,我们想尽 “千方百计” 才好不容易把 Prometheus 优化到适配大规模场景,部署和后期维护麻烦且复杂不说,还有很多不完美的地方,并且还无法满足一些更高级的诉求,比如查看时间久远的监控数据,对于一些时间久远不常用的 “冷数据”,最理想的方式就是存到廉价的对象存储中,等需要查询的时候能够自动加载出来。 Thanos (没错,就是灭霸) 可以帮我们简化分布式 Prometheus 的部署与管理,并提供了一些的高级特性:全局视图,长期存储,高可用。下面我们来详细讲解一下。

打造云原生大型分布式监控系统(一): 大规模场景下 Prometheus 的优化手段

目录 概述 大规模场景下 Prometheus 的痛点 从服务维度拆分 Prometheus 对超大规模的服务做分片 拆分引入的新问题 集中数据存储 Prometheus 联邦 Prometheus 高可用 总结 概述 Prometheus 几乎已成为监控领域的事实标准,它自带高效的时序数据库存储,可以让单台 Prometheus 能够高效的处理大量的数据,还有友好并且强大的 PromQL 语法,可以用来灵活的查询各种监控数据以及配置告警规则,同时它的 pull 模型指标采集方式被广泛采纳,非常多的应用都实现了 Prometheus 的 metrics 接口以暴露自身各项数据指标让 Prometheus 去采集,很多没有适配的应用也会有第三方 exporter 帮它去适配 Prometheus,所以监控系统我们通常首选用 Prometheus,本系列文章也将基于 Prometheus 来打造云原生环境下的大型分布式监控系统。 大规模场景下 Prometheus 的痛点 Prometheus 本身只支持单机部署,没有自带支持集群部署,也就不支持高可用以及水平扩容,在大规模场景下,最让人关心的问题是它的存储空间也受限于单机磁盘容量,磁盘容量决定了单个 Prometheus 所能存储的数据量,数据量大小又取决于被采集服务的指标数量、服务数量、采集速率以及数据过期时间。在数据量大的情况下,我们可能就需要做很多取舍,比如丢弃不重要的指标、降低采集速率、设置较短的数据过期时间(默认只保留15天的数据,看不到比较久远的监控数据)。 这些痛点实际也是可以通过一些优化手段来改善的,下面我们来细讲一下。