有效监控的基本原则

随着业务的发展,应用系统越来越复杂,对于企业而言,一旦程序崩溃或者程序性能降低,那么会直接导致应用系统运行速度缓慢或者根本无法使用。其最终结果不仅仅是会影响应用系统的使用效率,甚至会造成企业客户和利润的流失。因此,合理、安全、完善的程序监控工作是至关重要的。要做好监控,使监控真正有效,我们需要遵守必要的指导原则。有些人疲于奔命地花了很多时间做监控,但结果还是漏洞百出,不如人意,原因就在于他们忽视了监控的基本原则。

坚持预防为主的原则

很多人往往等到业务部门报告出问题,或者系统已经出现严重事故(比如宕机)时,才想到要事先做好监控,而这时已经造成了损失。

开发人员了解程序系统的原理、架构等

如果不懂得原理、架构,在面对以前没有遇到过的问题时,只能通过盲目“试”的方法来解决问题,这样做是非常低效和危险的。只有理解了内在原理、架构,才可能准确分析监控时遇到的各种现象,并作出正确的决策。

要做好应急预案,切忌盲目自信。

在实际生产环境中,没有完全可靠的硬件,也没有完全可靠的软件。小心使得万年船。在系统上线时,因为系统的参数设置、应用程序设计等还没有经过实际业务负载的充分检验,所以要关注系统资源(如CPU、I/O、内存等)和数据库状态(如缓冲池、锁等),分析其中暴露的问题,并且重点监控系统状态随业务量改变的变化趋势,分析上线后的系统能否满足业务需求。

警报需要文档

如果没有可读的解释说明文档、故障影响描述文件、补救程序和升级文档,任何规则都不应触发警报。

每个监控人员都遭受过警报疲劳,因此只创建必要的警报很有必要。

例如,假设你创建了一个 85% 的磁盘空间警报,你需要描述为什么这很重要以及对业务的影响是什么,同时还包括完整的补救程序和关键领导者或利益相关者的列表,如果出现问题,你需要与之交谈对策。一旦附加了这些规则,就不太可能在 85% 的磁盘空间上创建警报。

除非故障发生时,有人应该采取实际行动,否则你不应该发出警报。

健壮的监控系统

我在监控系统看到的最常见的错误之一是,工程师在系统内设置了警报,然后系统崩溃了。因此,他们无法使用它或看到任何东西,直到他们再次重新上线。

监控系统的健壮性至关重要,这样当系统出现故障或故障时,你的监控、警报、可视化和分析系统仍然可用。事实上,监控解决方案需要比它们所监控的系统更可用,并且它们需要在系统业务之外的服务器独立部署。

历史数据至关重要

不是数周或数月,而是多年的详细历史数据。容量规划和建模依赖于准确、高保真的历史记录。

很多监控厂商,尤其是开源厂商,都低估了历史数据的重要性。他们将数据存储一个月,认为任何超过一个月的数据都没有价值,这简直是大错特错。这些解决方案不会长期存储数据,因为它们不是专门设计的,但这并不意味着它不重要。

你应该拥有数年,而不仅仅是数周或数月的历史数据,以便你进行事后分析。没有什么比在事后分析中, 没有相关历史数据更令人恼火的了。因此你的数据粒度, 也要尽可能细, 而不是一个大的时间段。

你今天拥有的数据格式在 6 个月后和 12 个月后应该完全相同。这对于理解容量规划也很重要。你需要细粒度数据来进行长期容量规划。这方面的一个例子是带宽利用率。

你可能不会整天提供相同的带宽。如果你查看带宽利用率的历史记录,并在一天内对其进行平均,那么你的最大值就完全被掩盖了。所有的最大值都消失了,你正在规划这条根本不适合你的峰值的轨迹曲线。拥有这些细粒度数据可确保你可以正确回答所有未来的问题。(长时间保存监控历史参考:高可用的监控架构设计)

不要孤立数据

这一原则是上一条原则的完美后续:今天的 IT 组织希望所有东西都是分布式的,但是如果你没有将相关的数据放在一起,那么你就无法将系统和业务相关联。

当你将监控系统、数据库、用户等的所有数据放在一起时,你就可以开始围绕该数据分析你遇到的任何业务问题、并尝试寻找解决方案。这就是为什么—软件行业在构建高度可扩展的时间序列数据库方面—进行了大量投资的原因。

有总比没有好

我经常看到工程师力求监控系统的尽善尽美,让完美成为优秀的敌人。你不可能有完美的监控。开始很重要,最好从顶层开始——那些对顶层业务指标影响最密切的系统或服务。如果是TOC系统,那么网络延迟可能是最重要的衡量指标。

在确定从哪里开始监控时,瞄准那些为你的业务提供最高价值的事情。从那里,你可以深入了解监控,直至监控每个 IOP 和服务调用的延迟。一旦到了这一步,你就可以确定需要性能改进的地方。

总结

在我们这个微服务、分布式系统和期望永远在线的新时代,监控对于业务成功来说从未如此重要。它可能既复杂又难以抗拒,希望上述监控的基本原则可以在你项目上的监控过程时提供一些快速、实用的帮助。

参考

高可用的监控架构设计:https://zyun.360.cn/blog/?p=1796

监控的原则:https://thenewstack.io/the-10-fundamental-principles-of-effective-monitoring/

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇