报警规则

报警规则

  • 报警规则基于相关指标,通过定义性能等级而确立一个实体的健康状况;例如,平均响应时间(针对web事务)或CPU利用率(针对节点)过高。

健康状况包括:严重,警告,正常。受报警规则影响的对象,当其性能违反了报警规则的条件,就产生了违背报警规则的报警事件。
当对象的健康状况发生变化,即为发生了报警事件。其实例包括报警事件的开始,结束,从警告升为严重状态,或从严重降到警告状态。
违反报警规则的事件也可用来触发策略,其中能够自动启动动作,如发送警告电子邮件。
报警规则的详细配置过程,见配置报警规则 。

健康状况

健康状况事件

  • 正常
  • 警告
  • 严重

详细说明如下:

正常 警告 严重
名称:正常 名称:警告 名称:严重
描述:健康状况判定为正常 描述:健康状况判定为警告 描述:健康状况判定为严重
类型:健康状况 类型:健康状况 类型:健康状况

报警事件

报警事件

  • 报警结束-严重
  • 报警结束-警告
  • 报警持续-严重
  • 报警持续-警告
  • 报警开始触发-严重
  • 报警开始触发-警告
  • 报警降级-严重=>警告
  • 报警升级-警告=>严重
  • 受理

详细说明如下: Ar01

报警规则类型

报警规则按照所覆盖的报警范围,将报警规则分为不同的类型即web事务及节点。这使得在在创建报警规则的过程中,向导可以显示适当的配置项。

节点监控指标

目前,可支持以下指标的报警规则配置:

  • 已使用JVM堆内存
  • JVM堆内存使用率
  • JVM内存使用率【由于该项指标的计算存在问题已经暂时隐藏】
  • JVM CPU使用率

Ar02

web事务监控指标

目前,可支持以下指标的报警规则配置:

  • 平均响应时间(秒)
  • 最大响应时间(秒)
  • 最小响应时间(秒)
  • 每分钟调用次数
  • 每分钟错误此时
  • 每分钟错误率
  • 性能指数(Apdex)

Ar03

报警规则–时间

报警规则的数据是基于您所选择的时间进行聚合展示的,您可以进行如下的配置:

  • 报警规则什么时候生效
  • 基于什么时间进行数据收集计算
  • 报警事件中的特殊配置规则

报警规则–可用时间

默认情况下,报警规则是一直可用的。
但是,您也可以根据需要进行调整。设定在某一段时间内,我们的报警规则不可用。

Ar04

报警规则–数据收集时间

报警规则评估窗口是一个时间段,在其上评估报警收集的数据。
不同种类的指标使用不同的数据集可能提供更好的结果。您可以通过设置数据收集时间段,管理当评估特定的报警规则时,使用多少数据。默认值是3分钟。

  • 对于基于平均值计算的指标,如平均响应时间,我们在评估窗口计算响应时间的平均值。一个三分钟的窗口,意味着利用最后三分钟的数据评估计算是否违反了报警规则。
  • 对于基于求和计算的指标,例如调用次数,在评估窗口使用调用总数进行计数

Ar05

报警规则–等待时间

报警准则的等待时间设定当报警规则设定条件一直被违反的情况下,多久生成一个事件。当有违反 报警规则的事件产生并给出状态是严重或警告,则此时会有 报警开始触发-严重 或者 报警开始触发-警告 事件。此时系统会继续的进行异常检测,下次的异常检测如还是处于同上次一样的状态,那么此时就会产生 报警持续-严重 或者 报警持续-警告 事件。
但是按照系统默认的异常检测的频率对于用户来说可能太频繁,等待时间就是用于限制持续事件发生的频次。默认值是30min。
为了使用 报警持续-严重 或者 报警持续-警告 事件,我们首先需要将等待时间调整到一个合适的值。

Ar06

报警规则适用对象

报警规则的创建可以基于某些特定的对象或特定的tier 。举个例子来说,你可以创建一个作用于应用所有的web事务的web事务类型的报警规则或者一个作用于特定tier的全部节点的节点类型的报警规则。
报警规则向导让你精确指定报警规则所影响的对象,从而创建非常具体的报警规则。

受报警类型所影响的报警对象

对于 web事务 类型的报警规则来说,可以将其应用到:

  • 按照不同的tier来选择
  • 按照具体的web事务来选择

对于 节点 类型的报警规则来说,可以将其应用到:

  • 按照不同的tier来选择
  • 按照具体的节点来选择

报警规则条件

报警规则条件规定了系统可接受的范围情况,条件通过规定的一个系列的指标对 严重 和 警告 进行了划定 。
将当前系统的数据指标同我们所规定一个或多个的 严重 和 警告 的条件阈值相比较,如果为真则违反报警规则。
我们目前有两种可配置的阈值类型,包括:静态门限和无数据报警。
静态门限的设置比较简单,例如,某一业务的平均响应时间大于10s 。
无数据报警则主要运用于JVM宕机的情况。

多语句条件情况

通常,一个条件由多条语句组成,能评估不同的指标。当条件中的一个结果为真,或条件结果都为真时,说明已经违背了报警规则,具体几个条件来判断,要取决于条件的配置方式。
例如,如果报警规则中我们对平均响应时间大于3s的web事务进行报警,但是平均值往往会对最大值和最小值进行平均反而看不到问题所在,这时候我们就可以同时加上最大响应时间这个指标,从而更方便我们进行问题的定位分析。

严重和警告条件–指标说明

条件分为严重和警告两种条件。
应该在警告条件之前评估严重条件。如果你已经在同一报警规则中定义了严重条件和警告条件,只有在严重条件不为真时,进行评估警告条件。
严重和警告条件的配置过程完全相同,只是在独立的面板中配置。其中智能下进行严重条件的配置,警告条件自动默认。
随着性能的变化,如果性能恶化到较高的阈值,则违反报警的事件可以从警告升级到严重;如果性能提高到警告阈值,则事件可以从严重降级到警告。

针对节点和Web事务分别提供了以下特性:

  • 灵活的报警指标检测周期(过去:3分钟~60分钟)

Ar07

  • 单一或多报警条件组合(满足以下:“任意”或“全部”条件)

Ar08

  • 丰富报警数据指标
    • 1.节点报警指标【由于“JVM内存使用率”指标的计算存在问题已经暂时隐藏】: Ar09
    • 2. web事务报警指标

Ar10

  • 提供两种可配置阀值类型,包括:静态门限,动态门限和无数据报警

Ar11

  • 针对静态门限阀值类型,提供两种阀值检测手段,包括:数值门限(根据数值判断)和频率门限(根据发生频率判断),并提供了灵活的阀值设定方式。

Ar12

  • 选定数值门限检测手段,则配置如下:

Ar13

Ar14

报警规则管理

要查看当前的报警规则,可以点击 报警 > 报警规则
所有的报警规则 都被展示在页面的左侧部分。单击其中的一条,右侧的面板中会出现一个列表,其中显示该条报警规则下对象的实时状态。您可以可以选择 事件记录 来查看该条报警规则发生的报警事件以及进行报警事件的受理。
在左侧的面板中,可以进行报警规则的编辑,删除以及可用性的选择。