报警规则

报警规则
动态基线
配置报警规则
一键式性能剖析

报警规则

报警规则基于相关指标，通过定义性能等级而确立一个实体的健康状况；例如，平均响应时间（针对web事务）或CPU利用率（针对节点）过高。

健康状况包括：严重，警告，正常。受报警规则影响的对象，当其性能违反了报警规则的条件，就产生了违背报警规则的报警事件。
当对象的健康状况发生变化，即为发生了报警事件。其实例包括报警事件的开始，结束，从警告升为严重状态，或从严重降到警告状态。
违反报警规则的事件也可用来触发策略，其中能够自动启动动作，如发送警告电子邮件。
报警规则的详细配置过程，见配置报警规则。

健康状况

健康状况事件

正常
警告
严重

详细说明如下：

正常	警告	严重
名称：正常	名称：警告	名称：严重
描述：健康状况判定为正常	描述：健康状况判定为警告	描述：健康状况判定为严重
类型：健康状况	类型：健康状况	类型：健康状况

报警事件

报警结束-严重
报警结束-警告
报警持续-严重
报警持续-警告
报警开始触发-严重
报警开始触发-警告
报警降级-严重=>警告
报警升级-警告=>严重
受理

详细说明如下： Ar01

报警规则类型

报警规则按照所覆盖的报警范围，将报警规则分为不同的类型即web事务及节点。这使得在在创建报警规则的过程中，向导可以显示适当的配置项。

节点监控指标

目前，可支持以下指标的报警规则配置：

已使用JVM堆内存
JVM堆内存使用率
JVM内存使用率【由于该项指标的计算存在问题已经暂时隐藏】
JVM CPU使用率

Ar02

web事务监控指标

目前，可支持以下指标的报警规则配置：

平均响应时间（秒）
最大响应时间（秒）
最小响应时间（秒）
每分钟调用次数
每分钟错误此时
每分钟错误率
性能指数（Apdex）

Ar03

报警规则–时间

报警规则的数据是基于您所选择的时间进行聚合展示的，您可以进行如下的配置：

报警规则什么时候生效
基于什么时间进行数据收集计算
报警事件中的特殊配置规则

报警规则–可用时间

默认情况下，报警规则是一直可用的。
但是，您也可以根据需要进行调整。设定在某一段时间内，我们的报警规则不可用。

Ar04

报警规则–数据收集时间

报警规则评估窗口是一个时间段，在其上评估报警收集的数据。
不同种类的指标使用不同的数据集可能提供更好的结果。您可以通过设置数据收集时间段，管理当评估特定的报警规则时，使用多少数据。默认值是3分钟。

对于基于平均值计算的指标，如平均响应时间，我们在评估窗口计算响应时间的平均值。一个三分钟的窗口，意味着利用最后三分钟的数据评估计算是否违反了报警规则。
对于基于求和计算的指标，例如调用次数，在评估窗口使用调用总数进行计数

Ar05

报警规则–等待时间

报警准则的等待时间设定当报警规则设定条件一直被违反的情况下，多久生成一个事件。当有违反报警规则的事件产生并给出状态是严重或警告，则此时会有报警开始触发-严重或者报警开始触发-警告事件。此时系统会继续的进行异常检测，下次的异常检测如还是处于同上次一样的状态，那么此时就会产生报警持续-严重或者报警持续-警告事件。
但是按照系统默认的异常检测的频率对于用户来说可能太频繁，等待时间就是用于限制持续事件发生的频次。默认值是30min。
为了使用报警持续-严重或者报警持续-警告事件，我们首先需要将等待时间调整到一个合适的值。

Ar06

报警规则适用对象

报警规则的创建可以基于某些特定的对象或特定的tier 。举个例子来说，你可以创建一个作用于应用所有的web事务的web事务类型的报警规则或者一个作用于特定tier的全部节点的节点类型的报警规则。
报警规则向导让你精确指定报警规则所影响的对象，从而创建非常具体的报警规则。

受报警类型所影响的报警对象

对于 web事务类型的报警规则来说，可以将其应用到：

按照不同的tier来选择
按照具体的web事务来选择

对于节点类型的报警规则来说，可以将其应用到：

按照不同的tier来选择
按照具体的节点来选择

报警规则条件

报警规则条件规定了系统可接受的范围情况，条件通过规定的一个系列的指标对严重和警告进行了划定。
将当前系统的数据指标同我们所规定一个或多个的严重和警告的条件阈值相比较，如果为真则违反报警规则。
我们目前有两种可配置的阈值类型，包括：静态门限和无数据报警。
静态门限的设置比较简单，例如，某一业务的平均响应时间大于10s 。
无数据报警则主要运用于JVM宕机的情况。

多语句条件情况

通常，一个条件由多条语句组成，能评估不同的指标。当条件中的一个结果为真，或条件结果都为真时，说明已经违背了报警规则，具体几个条件来判断，要取决于条件的配置方式。
例如，如果报警规则中我们对平均响应时间大于3s的web事务进行报警，但是平均值往往会对最大值和最小值进行平均反而看不到问题所在，这时候我们就可以同时加上最大响应时间这个指标，从而更方便我们进行问题的定位分析。

严重和警告条件–指标说明

条件分为严重和警告两种条件。
应该在警告条件之前评估严重条件。如果你已经在同一报警规则中定义了严重条件和警告条件，只有在严重条件不为真时，进行评估警告条件。
严重和警告条件的配置过程完全相同，只是在独立的面板中配置。其中智能下进行严重条件的配置，警告条件自动默认。
随着性能的变化，如果性能恶化到较高的阈值，则违反报警的事件可以从警告升级到严重；如果性能提高到警告阈值，则事件可以从严重降级到警告。

针对节点和Web事务分别提供了以下特性：

灵活的报警指标检测周期（过去：3分钟~60分钟）

Ar07

单一或多报警条件组合（满足以下：“任意”或“全部”条件）

Ar08

丰富报警数据指标
- 1.节点报警指标【由于“JVM内存使用率”指标的计算存在问题已经暂时隐藏】：
- 2. web事务报警指标

Ar10

提供两种可配置阀值类型，包括：静态门限，动态门限和无数据报警

Ar11

针对静态门限阀值类型，提供两种阀值检测手段，包括：数值门限（根据数值判断）和频率门限（根据发生频率判断），并提供了灵活的阀值设定方式。

Ar12

选定数值门限检测手段，则配置如下：

Ar13

Ar14

报警规则管理

要查看当前的报警规则，可以点击 报警 > 报警规则。
所有的报警规则都被展示在页面的左侧部分。单击其中的一条，右侧的面板中会出现一个列表，其中显示该条报警规则下对象的实时状态。您可以可以选择事件记录来查看该条报警规则发生的报警事件以及进行报警事件的受理。
在左侧的面板中，可以进行报警规则的编辑，删除以及可用性的选择。

应用

web 事务入口

web 事务

调用链追踪

集群(Tier)

数据库列表

远程服务

设置

报警

报表

探针管理

报警规则

报警规则

健康状况

报警事件

报警规则类型

节点监控指标

web事务监控指标

报警规则–时间

报警规则–可用时间

报警规则–数据收集时间

报警规则–等待时间

报警规则适用对象

受报警类型所影响的报警对象

报警规则条件

多语句条件情况

严重和警告条件–指标说明

报警规则管理