单页面监控

陈梦阳 发表于 2015年10月23日 11:27 最后修改于 2015年12月30日 10:57

单页面监控页面,由总览、错误、详情以及报表和报警页面组成。


目录


总览页面


总览页面包括 CT 功能栏、选择器、相关指标图表3个部分。

 

Ct 功能栏包含:

监控、报表、报警三个一级功能模块和总览、错误、详情三个二级功能模块。

 

选择器包含:
  • 监控选择器:点击弹出下拉列表,展示所有监控项,通过选中某一应用进行切换。

  • 时间选择器:点击时间选择器,显示可选择时间点列表,选择后图例对应更新,可选择时间为:30分钟、60分钟、3小时、6小时、12小时、1天、3天、7天。


图表包含:


中国地图&可用性&平均可用率


中国地图按照已添加的省份、选择的时间段显示该 URL 的平均响应时间,其中小于2s绿色填充,2~6s 黄色填充,大于 6s 红色填充,直观显示不同地域的响应时间平均值。

可用性区域,分别按1小时、1天、3天、7天显示当前 URL 的可用性情况,方便对最近7天网站可用性的整体评估。

平均可用率支持按省份显示可用率、按运营商显示可用率。同时根据监控点选择、时间选择器选择进行动态更新。

blob.png

中国地图:

  • URL 已添加的运营点所属省份按平均响应时间对应的颜色显示;

  • 鼠标移动到省份区域,显示该省份的平均响应时间、运营商平均响应时间;

  • 切换不同监控、时间段的页签,中国地图对应动态更新。

 

可用性:

  • 分别按1小时、1天、3天、7天显示当前 URL 的可用性百分比。

 

平均可用率:

  • 显示当前网站 URL、已选择时间选择器的可用性,根据选择器选择对应动态更新;

  • 可切换“省份”、“运营商”两个页签;

  • 分别显示按省份统计的当前网站 URL、时间段的可用百分比;

  • 可分别显示按运营商统计的当前网站 URL、时间段的可用百分比。


加载时间&不可用错误率


加载时间按照已添加的运营商、选择的时间段显示该网站URL的响应时间折线图,最长可显示7天数据,直观显示加载时间趋势,为预警提供依据。

不可用错误率,分别按1小时、1天、3天、一星期显示显示当前网站 URL 的错误率,其中横坐标表示时间段,纵坐标表示错误率的百分比。包括 HTTP 错误率、网络故障率、Timeout 错误率。

blob.png

加载时间:

  • 显示当前网站 URL、已选择时间选择段的加载时间折线图;

  • 横坐标表示时刻,纵坐标表示加载时间,单位为秒;

  • 点击图例可控制折线图的显示隐藏,如点击“广东电信”,广东电信折线隐藏,再次点击出现;

  • 根据监控点、时间段动态更新。

 

不可用错误率:

  • 显示当前网站 URL 的错误的柱状图;

  • 横坐标表示时刻(1小时、1天、2天、1星期),纵坐标表示错误百分比;

  • 错误包括定义的 HTTP 错误率、网络错误率、Timeout 错误率。

 

省份性能&运营商性能&指标性能

省份性能可按省份显示该网站 URL、选择时间段内的性能和可用性情况。

运营商性能可按运营商显示该网站 URL、选择时间段内的性能和可用性情况。

指标性能可按指标显示该网站URL、选择时间段内的性能和可用性情况。

blob.png

省份性能:

  • 包含“性能”、“可用性”两个页签,可切换;

  • “性能”页签下,横坐标为响应时间,纵坐标为省份;

  • “可用性”页签下,横坐标表示可用性百分比,纵坐标表示省份;

  • 根据监控点、时间段动态更新。

 

运营商性能:

  • 包含“性能”、“可用性”两个页签,可切换;

  • “性能”页签下,横坐标为响应时间,纵坐标为运营商;

  • “可用性”页签下,横坐标表示可用性百分比,纵坐标表示运营商;

  • 根据监控点、时间段动态更新。

 

指标性能:

  • 横坐标为响应时间,纵坐标为运营商;

  • 横坐标时间按不同阶段分颜色显示;

  • 包括内容下载时间、后端响应时间、建立连接时间、DNS 时间;

  • 根据监控点、时间段动态更新。

 

错误页面

 

错误页面共由 Ct 功能栏、选择器、相关指标图表3个部分组成。

 

Ct 功能栏包含:

监控、报表、报警三个一级功能模块和总览、错误、详情三个二级功能模块。

 

选择器包含:
  • 监控选择器:点击弹出下拉列表,展示所有监控,通过选中某一应用进行切换。

  • 监控点选择器:显示所有监控点,点击可控制显示隐藏。

  • 时间选择器:点击时间选择器,显示可选择时间点列表,选择后图例对应更新,可选择时间为:30分钟、60分钟、3小时、6小时、12小时、1天、3天、7天。

  • 不可用勾选框:勾选后显示不可用情况下各种错误的统计情况,未勾选则显示所有情况下(可用&不可用)的各种错误的统计情况。


注:不可用指 http 无法加载,假如 http 中部分不可加载则不认为不可用。

 

错误列表:

错误列表包括错误次数、错误类型、错误节点。

blob.png

错误次数:

  • 横坐标为时间节点,纵坐标为错误次数,包含 http 错误,Timeout 错误和网络故障。

  • 鼠标移动到折线上显示对应时间点错误类型和错误次数。

  • 点击图例可控制折线图的显示隐藏,如点击“http 错误”,http 错误折线隐藏,再次点击出现;

  • 根据监控点、时间段动态更新。

 

错误类型:

  • 显示 http 错误,Timeout 错误和网络故障三种错误总次数以及对应的扇形图;

  • 点击某一类错误会显示该错误类型下的错误详情,如下图:

blob.png

  • 点击扇形图图例可控制扇形图的显示隐藏,如点击“http 错误”,http 错误扇形隐藏,再次点击出现;

 

错误节点:

  • 默认显示 Timeout 错误的错误节点以及监控时间;

  • 点击具体错误节点进入错误详情,如下图:

blob.png 

详情页面

 

详情页面共由 Ct 功能栏、选择器、相关指标图表3个部分组成。

 

Ct 功能栏包含:

监控、报表、报警三个一级功能模块和总览、错误、详情三个二级功能模块。

 

选择器包含:
  • 监控选择器:点击弹出下拉列表,展示所有监控,通过选中某一应用进行切换。

  • 时间选择器:点击时间选择器,显示可选择时间点列表,选择后图例对应更新,可选择时间为:30分钟、60分钟、3小时、6小时、12小时、1天、3天、7天。

 

最大响应时间列表:
  • 按运营商分别显示该网站 URL 的最大响应时间。

  • 点击每条数据可显示每个运营商的散点图、监控详情。

 

页面响应时间图:
  • 显示当前监控点,时间选择段的所有请求时间的散点图。

  • 不同颜色代表不同状态的请求健康度。

  • 绿色为正常,黄色为超时异常,蓝色为 http 错误异常,紫色为网络异常。

  • 点击具体图上具体点可进入单个请求详情。

 

监控详情:
  • 显示当前监控点、时间选择段的所有请求的记录。

  • 记录包括监控点、时间、平均响应时间。

blob.png 

详情页重点指标介绍


详情页默认显示当前监控点的所有运营商的最大响应时间,如下图:

blob.png 

查看单个运营商详情:


点击运营商列表,可显示该运营商的页面响应时间、页面响应时间散点图及监控详情,如点击“北京联通”,右侧显示北京联通运营商的监控信息,见下图

blob.png 

查看单个请求详情:


在“北京联通“监控信息图中,可继续查看请求的详情

点击散点图中的点或者监控详情中的记录,打开请求的具体监控详情,如下图:

blob.png 

查看单个请求详情:


包括该节点包含的请求,请求方式,请求状态码,请求个阶段的开始和结束时间

在详细请求图中,点击每个请求,可查看该请求的请求头信息、响应头信息,如下图:

blob.png 

 

请求头信息:


若在创建监控时,未选择保存 Header,则不能显示“请求头信息”、“响应头信息”,如下图所示

blob.png 

报表页面

 

报表可以选择日报表、周报表。选择日报表时,可以选择时间范围如下图。

blob.png

日报表可以展示每日可用率、错误率、平均响应时间,点击导出可以导出每日错误报表。

blob.png

点击周报表可以展示每周的可用率、错误列表、平均响应时间、点击导出可以导出每周错误报表。

  

报警页面

  • 设置报警阈值

  • 设置监控点

  • 设置接收邮箱

  • 报警开关

blob.png

  • 报警阈值可以选择平均响应时间和可用性,填写阈值后,一旦大于阈值就会发报警邮件。

  • 可以选择监控点设置,点击联通,移动就可以选择或取消。

  • 设置接收邮件,点击后边的加号可以添加多个邮箱地址。

  • 报警开关可选择“开“、“关”

  • 报警开关为“开”时,当监控的网站 URL 发生错误时即发送邮件报警。

 

 

附录——术语解释

  • 平均响应时间:平均响应时间是通过每次检查中各个监测点响应时间计算出来的平均值。

  • 可用性:可用性是指网站或者服务器可以正常访问次数/拨测总次数。

  • http 错误:针对浏览器可以连接到服务器,但服务器无法正确处理该请求的一种错误。

          400 Bad request(错误请求)

          404 Not found(没有找到)

          500 Internal server error(内部服务器错误)

          501 Not implemented(没有实施)

          502 Bad gateway(错误网关)

  • Timeout 错误:

          连接超时:
          现象:拨测 agent 发送请求后10秒内未能建立连接,说明网络、服务器或后端服务不可用。
          原因:可能是后端服务器未能提供正常的服务。
          解决方案:建议您检查后台服务软件是否工作正常。

          响应超时:
          现象:从发送请求到接收完返回数据的时间超过10秒,或未找到可用的连接。
          原因:可能服务器繁忙。
          解决方案:建议您优化后端服务器性能或者进行扩容。

  • 网络故障:

          连接失败:
          现象:拨测 agent 连接后端服务时直接返回错误。
          可能原因:拨测 agent 和后端服务之间的网络不通,或者后端服务未启动。 
          解决方案:建议检查网络或者后端服务监听的端口是否正常。

          连接被断开:
          现象:拨测 agent 和后端服务之间的网络连接被中断。
          可能原因:后台服务在重启前,会主动断开所有 tcp 连接,导致 agent 到服务器之间网络链路发生问题,丢失 socket 连接;或者存在 IP 地址认证,连接数超过最大值等原因导致的后端服务器主动断开连接。
          解决方案:建议您检查服务器 Web 服务程序。

回复

您需要登录后才可以回复