报警

为了方便用户及时掌握应用性能数据,Mi 提供报警功能,如果某一对象的指标数据达到阈值(报警线)即触发报警并发送通知,旨在帮助用户灵活使用 Mi,提高工作效率。 Mi 报警系统主要由三部分组成:

A13 001

报警规则

根据用户配置的规则对性能数据进行检测,当检测到性能数据有异常时,报警将会被触发从而产生报警事件。 首先展示报警规则列表:规则名称、报警类型、可用性、操作设置,支持对当前规则是否启用、删除、编辑等设置。

A13 002

创建报警规则时,点击 “ + ” 按钮,用户自行设置该报警事件名称后进行规则基础设定:

设置报警类型及可用性

  • 命名报警规则
  • 选择规则可用性:是否启用当前的报警
  • 报警类型:选择报警对象类型,目前报警类型包括:用户访问、网络请求、崩溃
  • 规则生效时间:选择接收产生报警的时间,在不可用时间中设置不接收报警的时间。

A13 003

一般情况下,我们需要及时收到报警并进行快速的处理,但在特殊的情况下是不需要收到报警的,可以通过不可用时间进行设置保存,默认情况下报警规则一直是可用的。

  • 等待时间:为了预防报警风暴的产生,对报警频率进行控制;

A13 004

应用的健康状态时刻在进行着动态的变化,这样也就导致了报警事件的不断产生,问题邮件的不断推送。但是往往我们是不需要这样频繁的邮件发送的,等待时间很好的为我们解决了报警风暴的问题,我们可以通过配置等待时间来决定邮件发送的频率,默认时间是 30min。

选择报警对象及范围

可对告警对象在 APP 版本、联网方式、用户组、地域、设备、操作系统的分布进行选择过滤。其中用户组需要在关键元素中进行配置。

A13 005 过滤条件支持多选,多选后,告警对象页面会展现出该分组条件是否有告警。如果选择多个过滤条件,则告警对象页面会组合这些过滤条件,进行告警对象的展现。 A13 006

选择严重条件 & 警告条件

关于告警阈值设置我们提供两种方式:静态门限和无数据报警 * 静态门限:提供数值门限和频率门限两种阈值检测方式,针对数值门限可进行平均值、之和、最大值、最小值的设置,也可以对同一条件进行多条语句的判断。

A13 007

比如在规则中我们对用户访问的 UEI 的最大值小于等于 60 进行报警。针对频率门限可以根据同一个问题发生的频率进行预测报警,比如在规则中我们对 30 分钟以内的用户访问 UEI 值小于等于 60 进行报警。

  • 无数据报警:设置某段时间范围内指标数据无数据则触发报警,针对任何条件的无数据报警只可设置一次。

A13 008

根据不同的告警条件和阈值,我们可以按照报警的严重程度分为严重条件和警告条件,设置大致一样,如果对同一个条件进行了严重条件和警告条件的配置时,系统会先判断是否是严重,只有在严重的条件不为真时进行判断警告条件,告警紧急程度:严重条件 > 警告条件。

A13 009

报警行为

定义推送规则的方式,目前支持邮件或者 webhook 的方式实现报警消息的推送。

A13 010

报警策略

Mi 报警为自动监控处理问题提供的一种机制,将报警规则与报警行为的通知方式进行关联,用户通过主动选择相关报警规则,设置以邮件通知等行为及时了解和处理发生的问题。
配置报警策略步骤:
1.选择创建策略,进行报警策略的配置。
2.填写策略名称。
3.进行可用性选择,可用则选中打勾。
4.选择会触发报警策略的报警事件。
5.选择和报警事件相对应的报警规则。报警规则可以在已有的报警规则中选取,也可以进行新的报警规则的创建。

A13 011

在报警规则列表中,任选某一规则当触发报警后,在右侧栏中的报警对象状态中会显示有报警,此处对象是根据过滤条件分组汇聚出的结果,点击事件记录会查看具体报警的事件,选择是否进行受理。

A13 012

点击受理后,发出受理邮件且该报警对象在触发新的报警前不再触发报警行为,点击详情可查看当前报警是否受理,同时有行为的触发时可看到具体的受理人。

A13 013