每周异常:第 8期,异常象限

上周的 每周异常:第 7期,保持简单,保持拙朴 中介绍了通过页面关键的 URL/ID 信息,简单有效的发现异常的方案。 本周我们在这个异常分析方法之上,再稍微深入下:

对于整个网站来说,每个系统、页面是有重要级别的,比如支付宝收银台就是 A1 级系统。 这些系统、页面一般可以按照以下方法来判断重要性:

  • 访问量极大,是最主要的业务,对用户影响极大。
  • 用户本身重要(例如商户,尤其是大商户),是最重要的业务,对企业影响巨大。

对于前者,我们可以通过系统、域名的访问量来近似的划分; 对于后者,我们可以建立白名单机制。

对于异常来说,可以通过异常率来判断异常自身的紧急程度。


  • 系统、页面重要性作为『异常重要性』的一个指标。
  • 异常率及异常量作为『异常紧急程度』作为一个指标。
    • 异常率超过阈值的为高发率异常。
    • (可选)异常量超过阈值的也是高发量异常。
    • 并且以高发率为主。

我们画出以下异常象限:

异常象限

  • 图中一、二、三、四为象限代号。
  • (0, 1, 2, 3) 为异常重要性序号。

经过一些分析,我们可以得出结论:

  • 第一、第二象限的异常,是我们最需要关注的部分。尤其是第一象限的异常, 实时高发异常一般也是在这个象限。
  • 第四、三象限的低发异常,则几乎可以不用关注。
  • 总之我们只需要关注高发异常,但应该以页面的重要性来排优先级。

如何设定阈值?

要确定异常象限,确定各个阈值是关键,这里只提供一些简单的参考。

  • 重要程度:全站重要页面占全站所有页面的 5% 左右,可以根据自身情况调整。
  • 紧迫程度:
    • 目前的经验数据是异常率 4‰ 以上可以认为是高发率异常,但仍需继续 分析实际数据做调整。
    • (可选)异常 PV 超过 (全站访问最高页面 PV 乘以 1‰) 的也可以认为是高发量异常, 实际可以根据自身情况调整。
Help
[count]gg 跳转到第 [count] 行,默认第 1 行。
[count]G 跳转到第 [count] 行,默认最后一行。
[count]j 向下跳转 [count] 行,默认跳转一行。
[count]k 向上跳转 [count] 行,默认跳转一行。
/ 开始搜索。按 <Esc> 退出。
gh 跳转到首页。
gb 跳转到博客首页。
gw 跳转到 Wiki 首页。
gt 跳转到我的 Twitter Profile 页。
gp 跳转到我的 Github Profile 页。
? 打开帮助。按 <Esc> 退出。