Skip to main content

新告警功能使用介绍

概述

作为监控的重要能力,Bugly 对告警能力又一次进行了细化升级,方便用户配置更加灵活、更加自定义的告警任务。

告警由以下几部分组成:

  • 告警名称
  • 告警维度
  • 告警类别
  • 监控频率:工作日/节假日/周n,单天内告警时段,检测频率
  • 统计方式:统计方式-统计周期
  • 过滤条件
  • 判异条件:计算区间,判断条件,操作符,阈值/对比周期+值
  • 告警级别
  • 通知方式
  • 通知接收人
  • 告警回调
  • 告警升级

功能介绍

告警维度

Bugly 新告警支持崩溃、错误、ANR、OOM 等质量监控和启动、卡顿、内存等性能监控的告警能力,基本对齐平台所支持监控项,并在不断完善中。

告警类别

1. 指标告警

统计方式:大盘

针对指标进行的告警,例如崩溃维度,指标告警可以设置设备崩溃率告警。

alt text

可以通过设置计算周期(如最近五分钟)来统计崩溃率,然后设置阈值来告警。并且支持环比同比告警,即对比上周期的崩溃率来告警。

alt text

可以选择变化率变化率绝对值来作为阈值。

支持的对比周期:近7日同期的平均值,昨日同期,上周同期,上一周期,昨日累计。详情见新告警定义介绍

举例

设置了 A 告警,为崩溃的指标告警,统计方式是大盘,判异条件是最近十分钟的设备崩溃率对比上一周期的变化率大于 1%。

alt text

则在 15:10 计算时,使用 15:00-15:10,SDK 版本是 111 且系统版本是 2222 的设备崩溃率,对比 14:50-15:00,SDK 版本是 111 且系统版本是 2222 的设备崩溃率,如果变化率大于 1% 则告警。

统计方式:按 App 版本分组统计

Bugly 支持分 App 版本告警。

alt text

目前支持按照不同方式取出的 n 个 App 版本进行分别统计计算并告警。

2. 终端用户告警

终端用户告警支持四种统计方式:

  • 按用户 ID 统计 - 用户指标
  • 按用户 ID 统计 - 异常个例
  • 按设备 ID 统计 - 设备指标
  • 按设备 ID 统计 - 异常个例

目前仅部分维度支持终端用户告警-按 xx 统计-指标方式,异常个例均有支持。

按用户 ID/设备 ID 统计即按照用户 ID/设备 ID 进行分组计算统计并告警。用户/设备指标与异常个例的区别在于判异条件支持不同。

须知

终端用户告警必须添加用户/设备 ID 维度过滤条件,否则无法进行终端用户告警。

如图所示:

alt text

  • 按用户 ID 统计需用户 ID 过滤条件
  • 按设备 ID 统计需设备 ID 过滤条件

3. Issue 告警

统计方式:支持以下五种统计方式:

  • 影响设备数/发生次数/复现率占比最大的 N 个 Issue
  • 首次上报时间在 XX 分钟内的大盘新增 Issue
  • 首次上报时间在 XX 分钟内的最新发布的 N 个版本的新增 Issue

新增Issue指:按照过滤条件和时间区间查出来的Issue,在近90天内的首次上报时间是在告警策略所设置的xx分钟内,则算作新增Issue

也支持不同的判异条件以及同比环比:

alt text

4. 个例告警

进行整个维度下个例的统计计算告警,一般用于质量部分指标与个例进行关联,可使用个例告警获得告警个例详情。

监控频率

监控频率分为监控时段检测频率两部分:

  • 监控时段:用来配置期望任务的生效时段,默认是每天/全天生效,也可以指定生效时期。在不生效时段,监控任务不会被执行。
  • 检测频率:用来配置监控任务的检测频率,即监控任务执行的频率。

统计方式

默认为大盘统计方式,即统计整个维度下的所有数据。不同告警类别有不同统计方式:

  • 指标告警:可以按照不同方式取出的 n 个 App 版本进行分别统计计算并告警
  • Issue 告警:可以按照不同方式取出的 n 个 Issue 进行分别统计计算并告警
  • 终端用户告警:可以区分用户/设备进行指标/个例的统计告警

过滤条件

可以用来过滤指定条件的数据。当前可支持指标页面/个例页面支持的所有筛选项条件。

判异条件

用来设定告警条件,超过指定条件阈值时,就会触发告警。每个告警维度都支持了丰富的判异条件。

通知方式

目前支持以下通知方式:

当前支持电子邮箱,微信公众号和告警回调。

权限管理

不同的成员在告警平台都配置了告警任务,规范大家的使用权限非常重要。

角色说明

  • 产品管理员:可管理产品下所有告警(包括编辑、删除等操作),可添加产品下所有告警的接收人
  • 非管理员:仅可编辑修改自己创建的告警,且通知接收人仅可添加自己

权限对照表

操作管理员普通成员
创建新告警任务允许,并且告警接收人可以是任何人允许,告警接收人只能是自己
删除告警任务允许删除任何已经创建的告警任务只允许删除自己创建的任务
编辑告警任务允许编辑任何已经创建的告警任务只允许编辑自己创建的任务
开启/关闭任务允许开启/关闭任何已经创建的告警任务只允许开启/关闭自己创建的任务
调整告警消息的状态允许调整任何告警消息的状态只允许调整自己作为接收人的告警消息的状态

通知接收人

注意

@通知接收人功能需勾选企业微信告警才可开启。

告警回调

基于安全方案规范,目前支持:

  • 企业微信机器人回调
  • 飞书回调
  • DingDing 回调
  • 其他回调

推荐方案:企业微信群机器人

推荐使用企业微信群机器人来创建 Webhook 回调,使用步骤如下:

第一步:创建企业微信群机器人

通过企业微信群的管理聊天信息/添加群机器人,创建企业微信群机器人。

告警配置

第二步:复制 Webhook 地址

通过企业微信群机器人的配置说明,查看 Webhook 地址。

告警配置

第三步:填写告警回调

示例

复制到的 Webhook 地址为:

https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=96dd95a2-036e-4632-80f9-8d95e256a4bb

案例演示

案例一:指标告警

场景描述

小 B 负责一个产品的质量,最近要发布新版本了。在发布初期,他期望及时了解到异常情况,因此做了如下配置:

配置策略

  1. 检测频率:选择了 5 分钟的检测频率,确保能够及时发现问题
  2. 统计周期:选择了 1 小时的崩溃率进行统计,获得更稳定的数据
  3. 阈值设置:通过崩溃概览,参考了全版本的数据,选择了 0.035% 作为设备崩溃率阈值
  4. 环比监控:为防止突然恶化,选择了对比昨日同期的崩溃率,如果变化率大于 40%,则告警
  5. 版本范围:同时监控最近五个发布版本,选择了按最近发布版本的统计方式

alt text

案例二:Issue 告警

场景描述

小 A 发布新版本时总担心会出现一些新增问题,因此做了如下配置:

配置策略

  1. 告警类型:选择了 Issue 告警
  2. 统计范围:选择新版本的 5 个新增 Issue 进行统计
  3. 触发条件:如果某个 Issue 恶化到一定程度,则触发告警

alt text