一、行云管家主机监控简介

日常运维中,常常需要监控主机的CPU、内存、流量等,以及需要做监控告警。在行云管家中,我们为用户提供了两种模式的监控服务:云厂商监控和行云管家Agent监控(需要在主机上安装行云管家Agent);

对于公有云主机而言,行云管家通过API集成了各大云厂商监控服务,用户可直接在行云管家中查看云厂商的监控数据。同时,如果云主机上已经安装了行云管家Agent,也可采用行云管家Agent监控(推荐使用);

而对于局域网主机,只能通过安装行云管家Agent来获得监控服务。

1.1、监控模式对比

受限于公有云厂商API的限制,云厂商监控模式存在诸如监控项过少、监控数据丢失、监控频率过低等问题。行云管家Agent监控模式,由安装在主机上的行云管家Agent插件直接向服务器汇报监控数据,有着稳定性高、频率高的优点,下面表格展示了两种监控模式的差异:

对比项 云厂商监控 行云管家Agent监控
数据来源 云厂商监控Agent 行云管家Agent
监控项数量 不同云厂商,监控项数量不一致 10项
监控频率 5分钟/次(收费版团队阿里云主机2分钟/次) 1分钟/次
稳定性和准确性 依赖于云厂商Agent和API

1.2、获取监控前提条件

(1)所有主机都可以通过安装行云管家Agent来获得监控数据(推荐使用);

(2)公有云主机,如果不想用行云管家Agent来获得监控数据,还可以通过云厂商自身的监控Agent来进行监控,云主机某些监控项依赖于云厂商自身的监控Agent(延伸阅读:安装阿里云监控插件安装腾讯云监控插件安装UCloud监控插件安装百度云监控插件安装AWS监控插件安装Azure监控插件安装华为云监控插件安装青云监控插件),否则将无法获取监控数据;

二、查看主机监控及告警设置

在“基础运维”的“主机管理”中,点击需要查看监控数据的主机,在“主机详情”里会显示该主机简要的“监控信息”;

您可以通过点击上图里“查看监控概览”或任意一个“监控信息”来进入到“监控概览”界面;

您可以通过点击上图里任意一个监控概览的图形界面或右下角的“详情”来进入到该监控项的监控详情,下图以CPU监控为例;

根据监控项的不同,行云管家提供了相应的告警设置,您可以依据真实情况修改告警的阈值或停用部分告警,下图以CPU监控的告警项设置为例。当云主机某项负载达到告警阈值时,还将产生如图告警记录;

同时,在主机图标中,将标记告警状态,提示用户当前云主机的异常状态;

三、自定义主机监控项

不论用户采用何种监控模式,行云管家都将默认提供一些基础监控项(如CPU),若用户需要更丰富的监控项,请进入主机详情页面,点击“监控概览”;

然后点击“设置监控项”,就可以进行监控项设置了;

如图,如果安装了行云管家Agent就可以选择行云管家Agent监控,如果安装了相关公有云监控插件,也可以选择公有云的监控项。需要注意的是,云主机某些监控项依赖于云厂商的监控Agent(延伸阅读:安装阿里云监控插件安装腾讯云监控插件),否则将无法获取监控数据;

四、监控方案(批量设置主机监控)

4.1、批量设置主机监控

通过监控方案可以批量对主机设置监控项与告警条件,方便您对相同监控指标的主机进行更为方便的管理;

(1)点击“基础运维”里的“监控方案”菜单,“创建新的监控方案”,填写“方案名称”以及“方案描述”后就可以看到您刚创建的方案了;

(2)点击进入您创建的监控方案,在“基本信息”这个子菜单下,请先在左边栏设置“方案查看与告警接收人”,使得该监控方案对哪些角色或用户生效;

(3)点击“添加监控项”,您可以通过筛选及搜索来选择添加哪类或哪个“监控项”,然后点击“添加”即可;

(4)添加完监控项后,您还可以对这些监控项进行“调整顺序”、“监控项设置”、“删除监控项”等操作;

(5)进入子菜单“主机列表”,在这里添加要使用该监控方案的主机;

(6)进入子菜单“告警记录”,在这里可以按条件查看或检索已有的告警记录;

4.2、导出监控方案报告

(1)点击“导出报告”可导出当前监控方案的报告,“监控源”可选择所有云本身的监控,也可以选择行云管家Agent监控,“统计周期”请选择您需要导出哪些日期的报告,“导出格式”支持word、pdf以及excel格式;

(2)导出的报告里包含以下几个信息报告:

  • (a)“概览”:包含监测时间段、监测主机总数、监测率等概览;

  • (b)“检测率明细”:监测率是指已纳入云监管平台的主机中,被正常监测状态下的主机数除以全部主机数而得到的比率值,监测率可以显示监测范围的覆盖情况。非正常监测状态包含:监测数据异常(行云管家Agent异常停止)、无监测源(未开启云厂商监控或未安装行云管家Agent)。

  • (c)“资源检测信息明细”:包含主机名称、实例ID、所属网络、CPU、磁盘、内存的相关使用率及使用率峰值,其他监控信息明细暂不包含;

  • (d)“非正常检测主机统计”:非正常监测状态包含:监测数据异常(行云管家Agent异常停止)、无监测源(未开启云厂商监控或未安装行云管家Agent);

  • (e)“告警主机统计”;包含主机名称、告警原因、告警事件以及告警状态;

五、SNMP监控

5.1、设置SNMP监控项

(1)在“基础运维”的“通用设置”页面下,点击“自定义监控”里的“SNMP监控”即可进行SNMP监控管理;

(2)在“状态”里点击开启即可开启SNMP监控,然后可以设置SNMP监控用于哪些操作平台及哪些操作系统,这里设置用于阿里云、腾讯云、局域网以及Windows、Linux操作系统为例;

(3)点击“添加新的监控项”,填写“监控项名称”以及“取值单位”(选填项);

(4)设置图表类型,行云管家提供线形图以及区域图两种展现方式;

(5)设置监控指标

在“请设置监控项包含的监控指标(Metric)”里点击“添加监控指标”,根据官方或度娘的SNMP信息进行填写,行云管家也提供了一些SNMP常用OID参考

  • “监控指标名称”:请填写监控指标的名称,例如空闲CPU百分比 、Total Swap Size等;

  • “监控指标ID”:请填写监控指标的具体OID,一般为.1.3.6.1.2.1.25.2.3.1.6或者1.3.6.1.2.1.25.2.3.1.6这种格式。所谓监控指标ID,就是SNMP中的OID(Object Identifier),SNMP OID是用一种按照层次化格式组织的、树状结构中的唯一地址来表示的,它与DNS层次相似。与其他格式的寻址方式类型,OID以两种格式加以应用:全名和先对名(有时称为“相关”);

并为该监控指标选择“绘图颜色”以及选择“是否显示”(是否将该监控指标显示在监控图中)、是否概览指标(是否将该监控指标显示在监控概览中);

请选择一个指标作为监控鸟瞰图:每个监控项展示图会有一个鸟瞰图,鸟瞰图通常采用监控项最具有代表意义的指标,例如:CPU使用率包含System、User、Idle等多个指标,但CPU平均使用率是最能代表该监控项的指标,那么可以将CPU平均使用率作为鸟瞰图;

(6)设置告警条件,在这里可以编辑“默认告警条件”以及设置是否“默认开启”;

(7)成功添加监控项;

(8)点击某个监控项即可对其进行编辑;

5.2、主机添加SNMP监控

(1)进入适用类型的主机详情(在上一步里设置了适用的平台及操作系统),此时在该主机面板这里的“设置”里,可以看到多了“SNMP配置”。

“状态”选择开启,填写“端口”(SNMP默认为161),选择并填写“v2c”或“v3”协议的相关信息;

(2)在主机详情页面,点击“监控概览”,并点击“设置监控项”,在这里即可把需要用到的“SNMP监控”移至“已选监控项”;

(3)移至“已选监控项”后即可在监控概览里看到了;

(4)点击要看的监控,即可进入该监控详情;

六、常见监控问题处理方式

关于阿里云查询监控数据API月调用量超额的说明,请参考这里尝试自助处理;

常见监控问题处理方式,您可以查看主机监控问题指引尝试自助处理;