健康状况包括:严重,警告,正常。受报警规则影响的对象,当其性能违反了报警规则的条件,就产生了违背报警规则的报警事件。
当对象的健康状况发生变化,即为发生了报警事件。其实例包括报警事件的开始,结束,从警告升为严重状态,或从严重降到警告状态。
违反报警规则的事件也可用来触发策略,其中能够自动启动动作,如发送警告电子邮件。
报警规则的详细配置过程,见配置报警规则 。
健康状况事件
详细说明如下:
正常 | 警告 | 严重 |
---|---|---|
名称:正常 | 名称:警告 | 名称:严重 |
描述:健康状况判定为正常 | 描述:健康状况判定为警告 | 描述:健康状况判定为严重 |
类型:健康状况 | 类型:健康状况 | 类型:健康状况 |
报警事件
详细说明如下:
报警规则按照所覆盖的报警范围,将报警规则分为不同的类型即web事务及节点。这使得在在创建报警规则的过程中,向导可以显示适当的配置项。
目前,可支持以下指标的报警规则配置:
目前,可支持以下指标的报警规则配置:
报警规则的数据是基于您所选择的时间进行聚合展示的,您可以进行如下的配置:
默认情况下,报警规则是一直可用的。
但是,您也可以根据需要进行调整。设定在某一段时间内,我们的报警规则不可用。
报警规则评估窗口是一个时间段,在其上评估报警收集的数据。
不同种类的指标使用不同的数据集可能提供更好的结果。您可以通过设置数据收集时间段,管理当评估特定的报警规则时,使用多少数据。默认值是3分钟。
报警准则的等待时间设定当报警规则设定条件一直被违反的情况下,多久生成一个事件。当有违反 报警规则的事件产生并给出状态是严重或警告,则此时会有 报警开始触发-严重 或者 报警开始触发-警告 事件。此时系统会继续的进行异常检测,下次的异常检测如还是处于同上次一样的状态,那么此时就会产生 报警持续-严重 或者 报警持续-警告 事件。
但是按照系统默认的异常检测的频率对于用户来说可能太频繁,等待时间就是用于限制持续事件发生的频次。默认值是30min。
为了使用 报警持续-严重 或者 报警持续-警告 事件,我们首先需要将等待时间调整到一个合适的值。
报警规则的创建可以基于某些特定的对象或特定的tier 。举个例子来说,你可以创建一个作用于应用所有的web事务的web事务类型的报警规则或者一个作用于特定tier的全部节点的节点类型的报警规则。
报警规则向导让你精确指定报警规则所影响的对象,从而创建非常具体的报警规则。
对于 web事务 类型的报警规则来说,可以将其应用到:
对于 节点 类型的报警规则来说,可以将其应用到:
报警规则条件规定了系统可接受的范围情况,条件通过规定的一个系列的指标对 严重 和 警告 进行了划定 。
将当前系统的数据指标同我们所规定一个或多个的 严重 和 警告 的条件阈值相比较,如果为真则违反报警规则。
我们目前有两种可配置的阈值类型,包括:静态门限和无数据报警。
静态门限的设置比较简单,例如,某一业务的平均响应时间大于10s 。
无数据报警则主要运用于JVM宕机的情况。
通常,一个条件由多条语句组成,能评估不同的指标。当条件中的一个结果为真,或条件结果都为真时,说明已经违背了报警规则,具体几个条件来判断,要取决于条件的配置方式。
例如,如果报警规则中我们对平均响应时间大于3s的web事务进行报警,但是平均值往往会对最大值和最小值进行平均反而看不到问题所在,这时候我们就可以同时加上最大响应时间这个指标,从而更方便我们进行问题的定位分析。
条件分为严重和警告两种条件。
应该在警告条件之前评估严重条件。如果你已经在同一报警规则中定义了严重条件和警告条件,只有在严重条件不为真时,进行评估警告条件。
严重和警告条件的配置过程完全相同,只是在独立的面板中配置。其中智能下进行严重条件的配置,警告条件自动默认。
随着性能的变化,如果性能恶化到较高的阈值,则违反报警的事件可以从警告升级到严重;如果性能提高到警告阈值,则事件可以从严重降级到警告。
针对节点和Web事务分别提供了以下特性:
要查看当前的报警规则,可以点击 报警 > 报警规则。
所有的报警规则 都被展示在页面的左侧部分。单击其中的一条,右侧的面板中会出现一个列表,其中显示该条报警规则下对象的实时状态。您可以可以选择 事件记录 来查看该条报警规则发生的报警事件以及进行报警事件的受理。
在左侧的面板中,可以进行报警规则的编辑,删除以及可用性的选择。