报警

报警由告警和响应两部分组成。告警让人知道什么时候问题存在,并有助于预测可能发展的问题。响应用于自动化关联告警事件和告警推送方式。报警系统由四部分组成,包括报警记录、报警策略、报警规则、报警行为。用户在报警规则板块创建需要报警的规则,在报警行为板块设置通知方式,然后通过报警策略将行为和规则关联,在报警记录板块可查看所有产生过的报警。

Alert 10

Use Case

应用程序通常都会经历一些问题,如“业务交易响应时间远高于正常时间”或“内存使用率太高”等。我们需要在 报警规则 中定义怎样才是“远高于”或“太高”。也可以针对受限的环境,自定义精确的自动化报警和响应。这样就能微调系统,确保正确的警报发给合适的人。

下面我们就举几个常见的配置例子。

应用报警规则到一个节点

当应用的节点存在慢的情况,可能并不需要对每个节点存在的问题都进行报警。但是当某个关键的节点发生问题的时候,我们需要立即发出报警通知并进行处理。您可以定义适用于特定层或节点的报警规则。如果违反了这些规则,系统就知道到底哪个对象遇到问题,因此也知道需要提醒谁。下面的例子,就是只影响了一个服务器节点。
Alert 12

设置报警严重/警告条件
用户可根据自己的实际业务情况,设置严重条件。OneAPM AI支持设置为静态值下的数值门限和频率门限值设置。
Alert 13

设置报警行为
报警行为包括邮件和脚本。
Alert 14

设置报警策略
报警策略:将报警规则和报警行为相关联。当报警事件触发时,告警通知将通过设定的方式进行推送。
Alert 15

查看报警记录
报警记录模块按报警事件时间曲线图、列表形式显示了所发生过的告警,可点击查看详情。
Alert 16