上周的 每周异常:第 7期,保持简单,保持拙朴 中介绍了通过页面关键的 URL/ID 信息,简单有效的发现异常的方案。 本周我们在这个异常分析方法之上,再稍微深入下:
对于整个网站来说,每个系统、页面是有重要级别的,比如支付宝收银台就是 A1 级系统。 这些系统、页面一般可以按照以下方法来判断重要性:
- 访问量极大,是最主要的业务,对用户影响极大。
- 用户本身重要(例如商户,尤其是大商户),是最重要的业务,对企业影响巨大。
对于前者,我们可以通过系统、域名的访问量来近似的划分; 对于后者,我们可以建立白名单机制。
对于异常来说,可以通过异常率来判断异常自身的紧急程度。
- 系统、页面重要性作为『异常重要性』的一个指标。
- 异常率及异常量作为『异常紧急程度』作为一个指标。
- 异常率超过阈值的为高发率异常。
- (可选)异常量超过阈值的也是高发量异常。
- 并且以高发率为主。
我们画出以下异常象限:
- 图中一、二、三、四为象限代号。
- (0, 1, 2, 3) 为异常重要性序号。
经过一些分析,我们可以得出结论:
- 第一、第二象限的异常,是我们最需要关注的部分。尤其是第一象限的异常, 实时高发异常一般也是在这个象限。
- 第四、三象限的低发异常,则几乎可以不用关注。
- 总之我们只需要关注高发异常,但应该以页面的重要性来排优先级。
如何设定阈值?
要确定异常象限,确定各个阈值是关键,这里只提供一些简单的参考。
- 重要程度:全站重要页面占全站所有页面的 5% 左右,可以根据自身情况调整。
- 紧迫程度:
- 目前的经验数据是异常率 4‰ 以上可以认为是高发率异常,但仍需继续 分析实际数据做调整。
- (可选)异常 PV 超过 (全站访问最高页面 PV 乘以 1‰) 的也可以认为是高发量异常, 实际可以根据自身情况调整。