新告警功能使用介绍
概述
作为监控的重要能力,Bugly 对告警能力又一次进行了细化升级,方便用户配置更加灵活、更加自定义的告警任务。
告警由以下几部分组成:
- 告警名称
- 告警维度
- 告警类别
- 监控频率:工作日/节假日/周n,单天内告警时段,检测频率
- 统计方式:统计方式-统计周期
- 过滤条件
- 判异条件:计算区间,判断条件,操作符,阈值/对比周期+值
- 告警级别
- 通知方式
- 通知接收人
- 告警回调
- 告警升级
功能介绍
告警维度
Bugly 新告警支持崩溃、错误、ANR、OOM 等质量监控和启动、卡顿、内存等性能监控的告警能力,基本对齐平台所支持监控项,并在不断完善中。
告警类别
1. 指标告警
统计方式:大盘
针对指标进行的告警,例如崩溃维度,指标告警可以设置设备崩溃率告警。

可以通过设置计算周期(如最近五分钟)来统计崩溃率,然后设置阈值来告警。并且支持环比同比告警,即对比上周期的崩溃率来告警。

可以选择变化率或变化率绝对值来作为阈值。
支持的对比周期:近7日同期的平均值,昨日同期,上周同期,上一周期,昨日累计。详情见新告警定义介绍。
举例:
设置了 A 告警,为崩溃的指标告警,统计方式是大盘,判异条件是最近十分钟的设备崩溃率对比上一周期的变化率大于 1%。

则在 15:10 计算时,使用 15:00-15:10,SDK 版本是 111 且系统版本是 2222 的设备崩溃率,对比 14:50-15:00,SDK 版本是 111 且系统版本是 2222 的设备崩溃率,如果变化率大于 1% 则告警。
统计方式:按 App 版本分组统计
Bugly 支持分 App 版本告警。

目前支持按照不同方式取出的 n 个 App 版本进行分别统计计算并告警。
2. 终端用户告警
终端用户告警支持四种统计方式:
- 按用户 ID 统计 - 用户指标
- 按用户 ID 统计 - 异常个例
- 按设备 ID 统计 - 设备指标
- 按设备 ID 统计 - 异常个例
目前仅部分维度支持终端用户告警-按 xx 统计-指标方式,异常个例均有支持。
按用户 ID/设备 ID 统计即按照用户 ID/设备 ID 进行分组计算统计并告警。用户/设备指标与异常个例的区别在于判异条件支持不同。
终端用户告警必须添加用户/设备 ID 维度过滤条件,否则无法进行终端用户告警。
如图所示:

- 按用户 ID 统计需用户 ID 过滤条件
- 按设备 ID 统计需设备 ID 过滤条件
3. Issue 告警
统计方式:支持以下五种统计方式:
- 影响设备数/发生次数/复现率占比最大的 N 个 Issue
- 首次上报时间在 XX 分钟内的大盘新增 Issue
- 首次上报时间在 XX 分钟内的最新发布的 N 个版本的新增 Issue
新增Issue指:按照过滤条件和时间区间查出来的Issue,在近90天内的首次上报时间是在告警策略所设置的xx分钟内,则算作新增Issue
也支持不同的判异条件以及同比环比:

4. 个例告警
进行整个维度下个例的统计计算告警,一般用于质量部分指标与个例进行关联,可使用个例告警获得告警个例详情。
监控频率
监控频率分为监控时段与检测频率两部分:
- 监控时段:用来配置期望任务的生效时段,默认是每天/全天生效,也可以指定生效时期。在不生效时段,监控任务不会被执行。
- 检测频率:用来配置监控任务的检测频率,即监控任务执行的频率。
统计方式
默认为大盘统计方式,即统计整个维度下的所有数据。不同告警类别有不同统计方式:
- 指标告警:可以按照不同方式取出的 n 个 App 版本进行分别统计计算并告警
- Issue 告警:可以按照不同方式取出的 n 个 Issue 进行分别统计计算并告警
- 终端用户告警:可以区分用户/设备进行指标/个例的统计告警
过滤条件
可以用来过滤指定条件的数据。当前可支持指标页面/个例页面支持的所有筛选项条件。
判异条件
用来设定告警条件,超过指定条件阈值时,就会触发告警。每个告警维度都支持了丰富的判异条件。
通知方式
目前支持以下通知方式:
当前支持电子邮箱,微信公众号和告警回调。
权限管理
不同的成员在告警平台都配置了告警任务,规范大家的使用权限非常重要。
角色说明:
- 产品管理员:可管理产品下所有告警(包括编辑、删除等操作),可添加产品下所有告警的接收人
- 非管理员:仅可编辑修改自己创建的告警,且通知接收人仅可添加自己
权限对照表:
| 操作 | 管理员 | 普通成员 |
|---|---|---|
| 创建新告警任务 | 允许,并且告警接收人可以是任何人 | 允许,告警接收人只能是自己 |
| 删除告警任务 | 允许删除任何已经创建的告警任务 | 只允许删除自己创建的任务 |
| 编辑告警任务 | 允许编辑任何已经创建的告警任务 | 只允许编辑自己创建的任务 |
| 开启/关闭任务 | 允许开启/关闭任何已经创建的告警任务 | 只允许开启/关闭自己创建的任务 |
| 调整告警消息的状态 | 允许调整任何告警消息的状态 | 只允许调整自己作为接收人的告警消息的状态 |
通知接收人
@通知接收人功能需勾选企业微信告警才可开启。
告警回调
基于安全方案规范,目前支持:
- 企业微信机器人回调
- 飞书回调
- DingDing 回调
- 其他回调
推荐方案:企业微信群机器人
推荐使用企业微信群机器人来创建 Webhook 回调,使用步骤如下:
第一步:创建企业微信群机器人
通过企业微信群的管理聊天信息/添加群机器人,创建企业微信群机器人。

第二步:复制 Webhook 地址
通过企业微信群机器人的配置说明,查看 Webhook 地址。

第三步:填写告警回调
示例:
复制到的 Webhook 地址为:
https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=96dd95a2-036e-4632-80f9-8d95e256a4bb
案例演示
案例一:指标告警
场景描述:
小 B 负责一个产品的质量,最近要发布新版本了。在发布初期,他期望及时了解到异常情况,因此做了如下配置:
配置策略:
- 检测频率:选择了 5 分钟的检测频率,确保能够及时发现问题
- 统计周期:选择了 1 小时的崩溃率进行统计,获得更稳定的数据
- 阈值设置:通过崩溃概览,参考了全版本的数据,选择了 0.035% 作为设备崩溃率阈值
- 环比监控:为防止突然恶化,选择了对比昨日同期的崩溃率,如果变化率大于 40%,则告警
- 版本范围:同时监控最近五个发布版本,选择了按最近发布版本的统计方式

案例二:Issue 告警
场景描述:
小 A 发布新版本时总担心会出现一些新增问题,因此做了如下配置:
配置策略:
- 告警类型:选择了 Issue 告警
- 统计范围:选择新版本的 5 个新增 Issue 进行统计
- 触发条件:如果某个 Issue 恶化到一定程度,则触发告警
