发表于 2018-05-07 03:14:25 ,最后修改于 2018-05-15 17:19:04

背景

最近发生了一起用户反馈极少且难以复现的故障事件,写下这篇日志作为记录。

事实和经过

05 月 05 日 18.40 接到首起反馈,称登录我司负责的网站 五环数学官网“进不去”,影响使用。用户还提到,使用其他设备登录,或者使用其设备登录其他网站,均无异常。立即使用同归属地的移动、联通、电信网络实际测试,均可以正常登录。由于事件严重影响用户体验,我立即向用户致歉,并进行跟进。

06 日上午用户配合提供了更详细的信息,故障表现为完全打不开网站,出故障的设备是一台 iPhone X,iOS 11,联通 4G 网络(归属地 A 省 A 市),手机号 186 **** ****,使用 Safari 浏览器、微信内浏览器和一款难以识别的国产浏览器,排除了网址不对、设备太老、操作系统太旧、网速太慢和浏览器太奇葩的问题。同时,另有两位用户反馈类似问题,设备是 Vivo 系列,联通 4G 网络。

故障设备测试

请用户使用出问题的 iPhone X 尝试登录:

  1. 开发版五环数学官网,同服务器,http 连接;
  2. 带 CDN 的五环数学官网,CDN,https 连接;
  3. 工作进展公示系统,香港服务器,https 连接;
  4. 某报名系统,另一台香港服务器,https 连接;
  5. 华为消费者业务官网,https 连接。

发现,1、4 无法载入,2 可以载入但是进度条始终无法走完,3、5 正常。请用户查看 Safari 浏览器高级设置,发现 JavaScript 被禁用,故 4 出现异常。但此并非本事件重点,故继续测试。

综合用户详细信息和故障设备测试,推断用户的设备无法与主服务器建立连接。进行复现测试,仍然未见异常。

调查

无法连接的原因很多,下面逐一进行调查:

  1. 域名。首先检查域名 wuhuan2012.com 的健康状态,查明域名过期日期 2027 年 05 月 27 日,DNS 正确配置,没有被 Hold,持有者信息、注册商信息和安全锁未见异常。
  2. DNS。使用 A 省 A 市移动、联通、电信网络测试
    host www.wuhuan2012.com
    未见异常。
  3. 备案信息。前往工业和信息化部 ICP / IP 地址 / 域名信息备案管理系统,查询 wuhuan2012.com 的备案信息和黑名单信息,未见异常。
  4. ping。使用 A 省 A 市移动、联通、电信网络测试
    ping www.wuhuan2012.com
    未见异常。
  5. 由于受影响的用户都是联通网络,尝试以联通为突破口,使用 A 省 B 市、B 省 A 市和大量的 A 省 A 市中国联通网络进行测试。终于发现某个 A 省 A 市联通网络出现了与用户完全一致的问题。

研判

为了避免捣乱的用户影响大家的体验,我们会使用屏蔽 IP 段的方式解决问题。尝试取消所有屏蔽,发现该联通网络恢复了正常。问题根源被发现。

处置

调取该联通网络的 IP 地址至管理中心查询,查到某位同事于 2018-04-25 19:57:08 添加的规则屏蔽得有点过狠,误伤了一小撮 A 省 A 市联通 IP。删除之,并重新启用 IP 段屏蔽,该联通网络恢复了正常。

这次事件至此告一段落,问题在数个小时内被解决。遇到难以复现的事件时,我们需要端正态度,做好用户的解释工作,查找有没有替代方案先提供给用户代用(以避免用户端服务中断),仔细寻找问题的突破口,并以最快速度进行处置。