API 监控

陈梦阳 发表于 2015年10月23日 11:11 最后修改于 2016年01月25日 11:27

API 监控由总览页面、错误页面、报表页面和报警页面组成。

目录

总览页面

总览页面包括 CT 功能栏、选择器、相关指标图表3个部分。


Ct 功能栏包含:

监控、报警两个一级功能模块和总览、错误两个二级功能模块。

 

选择器包含:
  • 监控选择器:点击弹出下拉列表,展示所有监控项,通过选中某一应用进行切换。

  • 时间选择器:点击时间选择器,显示可选择时间点列表,选择后图例对应更新,可选择时间为:30分钟、60分钟、3小时、6小时、12小时、1天、3天、7天

 

图表包含:


中国地图&可用性&平均可用率


中国地图按照已添加的省份、选择的时间段显示该 URL 的平均响应时间,其中小于2s绿色填充,2~6s 黄色填充,大于 6s 红色填充,直观显示不同地域的响应时间平均值。

可用性按1小时、1天、3天、7天显示当前 API 的可用性情况,方便对最近7天网站的整体情况进行评估。

平均可用率支持按省份显示可用率、按运营商显示可用率。同时根据监控点选择、时间选择器选择进行动态更新。

blob.png

中国地图:

  • API 添加的运营点所属省份按平均响应时间对应的颜色显示;

  • 鼠标移动到省份区域,显示该省份的平均响应时间、运营商平均响应时间;

  • 切换不同监控、时间段的页签,中国地图对应动态更新。


可用性:

  • 分别按1小时、1天、3天、7天显示当前 URL 的可用性百分比。

 

平均可用率:

  • 显示当前 API 、已选择时间选择器的可用性,根据选择器选择对应动态更新;

  • 可切换“省份”、“运营商”两个页签;

  • 分别显示按省份统计的当前 API、时间段的可用百分比;

  • 可分别显示按运营商统计的当前 API、时间段的可用百分比。

加载时间&不可用错误率

加载时间按照已添加的运营商、选择的时间段显示该 API 的响应时间折线图,最长可显示7天数据,直观显示加载时间趋势,为预警提供依据。

不可用错误率,分别按1小时、1天、3天、一星期显示显示当前 API 的错误率,其中横坐标表示时间段,纵坐标表示错误率的百分比。包括 HTTP 错误率、网络故障率、Timeout 错误率、Code 应答错误、时间应答错误、内容匹配错误。

blob.png

加载时间:

  • 显示当前 API、已选择时间选择段的加载时间折线图;

  • 横坐标表示时刻,纵坐标表示加载时间,单位为秒;

  • 点击图例可控制折线图的显示隐藏,如点击“广东电信”,广东电信折线隐藏,再次点击出现;

  • 根据监控点、时间段动态更新。

 

不可用错误率

  • 显示当前API在1小时、1天、3天、1星期不可用的错误率;

  • 错误包括定义的 HTTP 错误率、网络故障率、Timeout 错误率、Code 应答错误、时间应答错误、内容匹配错误。


省份性能&运营商性能&指标性能

省份性能可按省份显示该 API、选择时间段内的性能和可用性情况。

运营商性能可按运营商显示该 API、选择时间段内的性能和可用性情况。

指标性能可按指标显示该 API、选择时间段内的性能和可用性情况。

blob.png

省份性能:

  • 包含“性能”、“可用性”两个页签,可切换;

  • “性能”页签下,横坐标为响应时间,纵坐标为省份;

  • “可用性”页签下,横坐标表示可用性百分比,纵坐标表示省份;

  • 根据监控点、时间段动态更新。

 

运营商性能:

  • 包含“性能”、“可用性”两个页签,可切换;

  • “性能”页签下,横坐标为响应时间,纵坐标为运营商;

  • “可用性”页签下,横坐标表示可用性百分比,纵坐标表示运营商;

  • 根据监控点、时间段动态更新。

 

指标性能:

  • 横坐标为响应时间,纵坐标为运营商;

  • 横坐标时间按不同阶段分颜色显示;

  • 包括内容下载时间、后端响应时间、建立连接时间、DNS 时间;

  • 根据监控点、时间段动态更新。

错误页面

 

错误页面共由 Ct 功能栏、选择器、相关指标图表3个部分组成。

 

Ct 功能栏包含:

监控、报警两个一级功能模块和总览、错误两个二级功能模块。

 

选择器包含:
  • 监控选择器:点击弹出下拉列表,展示所有监控项,通过选中某一应用进行切换。

  • 监控点选择器:显示所有监控点,点击可控制显示隐藏。

  • 时间选择器:点击时间选择器,显示可选择时间点列表,选择后图例对应更新,可选择时间为:30分钟、60分钟、3小时、6小时、12小时、1天、3天、7天。

 

错误列表:

错误列表包括错误次数、错误类型、错误节点。

00156824deedd0e924cfd0ca9cce240

错误次数:

  • 横坐标为时间节点,纵坐标为错误次数,包含 http 错误,Timeout 错误、网络故障、Code 应答错误、时间应答错误、内容匹配错误。

  • 鼠标移动到折线上显示对应时间点错误类型和错误次数。

  • 点击图例可控制折线图的显示隐藏,如点击“http 错误”,http 错误折线隐藏,再次点击出现;

  • 根据监控点、时间段动态更新。

 

错误类型:

  • 显示 http 错误,Timeout 错误、网络故障、Code 应答错误、时间应答错误、内容匹配错误六种错误总次数以及对应的扇形图;

  • 点击某一类错误会显示该错误类型下的错误详情,如下图:

00156824e61456638d404444d6642f8

  • 点击扇形图图例可控制扇形图的显示隐藏,如点击“http 错误”,http 错误扇形隐藏,再次点击出现;

 

错误节点:

  • 默认显示 Timeout 错误的错误节点以及监控时间;

  • 点击具体错误节点进入错误详情,如下图:

00156824ebeb00dfbe34dccde2ee178


报表页面

 

报表可以选择日报表、周报表。选择日报表时,可以选择时间范围如下图。blob.png

日报表可以展示每日平均响应时间、可用率、错误率,点击导出可以导出每日错误报表。blob.png

点击周报表可以展示每周的平均响应时间、可用率、错误率,点击导出可以导出每周错误报表。

  

报警页面

  • 设置报警阈值

  • 设置监控点

  • 设置接收邮箱

  • 报警开关

blob.png

  • 报警阈值可以选择平均响应时间和可用性,填写阈值后,一旦大于阈值就会发报警邮件。

  • 可以选择监控点设置,点击联通,移动就可以选择或取消。

  • 设置接收邮件,点击后边的加号可以添加多个邮箱地址。

  • 报警开关可选择“开“、“关”

  • 报警开关为“开”时,当监控的 API 发生错误时即发送邮件报警。

附录——术语解释

  • 平均响应时间:平均响应时间是通过每次检查中各个监测点响应时间计算出来的平均值。

  • 可用性:可用性是指网站或者服务器可以正常访问次数/拨测总次数。

  • http 错误:针对浏览器可以连接到服务器,但服务器无法正确处理该请求的一种错误。

          400 Bad request(错误请求)

          404 Not found(没有找到)

          500 Internal server error(内部服务器错误)

          501 Not implemented(没有实施)

          502 Bad gateway(错误网关)

  • Timeout 错误:

          连接超时:
          现象:拨测 agent 发送请求后10秒内未能建立连接,说明网络、服务器或后端服务不可用。
          原因:可能是后端服务器未能提供正常的服务。
          解决方案:建议您检查后台服务软件是否工作正常。

          响应超时:
          现象:从发送请求到接收完返回数据的时间超过10秒,或未找到可用的连接。
          原因:可能服务器繁忙。
          解决方案:建议您优化后端服务器性能或者进行扩容。

  • 网络故障:

          连接失败:
          现象:拨测 agent 连接后端服务时直接返回错误。
          可能原因:拨测 agent 和后端服务之间的网络不通,或者后端服务未启动。
          解决方案:建议检查网络或者后端服务监听的端口是否正常。

          连接被断开:
          现象:拨测 agent 和后端服务之间的网络连接被中断。
          可能原因:后台服务在重启前,会主动断开所有 tcp 连接,导致 agent 到服务器之间网络链路发生问题,丢失 socket 连接;或者存在 IP 地址认证,连接数超过最大值等原因导致的后端服务器主动断开连接。
          解决方案:建议您检查服务器Web服务程序。

  • Code 应答错误:如果在 API 监控的结果里设置了响应码,就会检查每一次的响应码是否和设置的相同,如果不相同,就会在总览页报 code 应答错误。

  • 时间应答错误:如果在 API 监控的结果难设置了最大反应时间,就会检查每一次的响应时间是否和设置的相同,如果超过最大响应时间,就是时间应答错误。

  • 内容匹配错误:如果在 API 监控的结果里设置了内容包含, 就会检查每一次的响应结果中,是否包含设置的内容,如果不包含就是内容匹配错误。

 

 


回复

您需要登录后才可以回复