1. 社区首页
  2. 常见问题(FAQ)
  3. 主机使用
  4. 体检监控问题

体检监控问题

1、网络网卡流量是如何监控的:

问题解答:

目前行云管家是对每块网卡单独对应一个IP进行监控,单独监控该网络流量;

映射出去的公网IP一般无法另外添加监控的,映射的公网IP没法监控,流量是走的内网,区分不出来;

 

2、主机页面和监控概览里监控数据不是最新的

问题解答:

如果agent停止运行了,此时监控数据应该是0。但目前我们的机制是获取上一次的,不会获取当前为0的,所以数据如果没有更新,暂时监测不到;

 

3、监控数据存放位置是在哪里?会占用磁盘空间是多少?

问题解答:

监控数据放在我们的数据库里,不会占用用户的磁盘空间;

 

4、监控数据多久清理一次?

问题解答:

监控的数据只会保留30天的数据,超出的会进行清理;

 

5、是否有进程监控?

问题解答:

目前行云管家能监控到进程数,具体每项进程的监控,会在后续版本中丰富;

 

6、是否可以监控到存储?

问题解答:

存储监控前提:该存储需要可以安装行云管家agent,网络设备和硬件存储设备如果不能安装agent就无法获取监控数据。因为行云管家是基于行云管家agent 来获取监控信息的,不是基于SNMP的;

 

7、死机、关机是否会报警

问题解答:

目前关机死机是没有报警的,我们产品后续的发展方向,会在监控项上做大方面的重构;

 

8、监控数据是否支持使用用户自己的tsdb库

问题解答:

目前是不支持的,行云管家目前的监控数据有两类,一类是通过云厂商API获取,一类是通过行云管家自己的Agent上报。拿到这些监控数据后,会转存到行云管家的InfluxDB中。

但我们很可能会在行云管家的私有部署版本(或者是运营版本)中,提供此特性,但在SaaS版本中,目前估计很难提供此特性;

 

9、监控频率是多少:

问题解答:

i、SaaS:

受限于公有云厂商API的限制,云厂商监控模式存在诸如监控项过少、监控数据丢失、监控频率过低等问题。行云管家Agent监控模式,由安装在主机上的行云管家Agent插件直接向服务器汇报监控数据,有着稳定性高、频率高的优点,下面表格展示了两种监控模式的差异:

对比项
云厂商监控
行云管家Agent监控
数据来源 云厂商监控Agent 行云管家Agent
监控项数量 不同云厂商,监控项数量不一致 10项
监控频率 5分钟/次(收费版团队阿里云主机2分钟/次) 1分钟/次
稳定性和准确性 依赖于云厂商Agent和API

云主机的监控数据获取频率是基础版团队是5分钟/次,收费版本是2分钟/次;

ii、私有部署版:

监控刷新频率:服务器API获取是1分钟获取一次监控信息,可以从下面看出来:

点进一台主机,如下随便一台,然后点 监控概况,点 内存使用率进入如下内存监控详情里:

通过红色框框里的可以移动看出,现在03:38,下一个点应该是03:39,这里的间隔就是1分钟

体检监控问题  第1张

监控概览页面刷新频率:

进此页面后立刻刷新,然后每隔5分钟自动更新(刷新浏览器每5分钟会向后台请求一次数据),或者可以手动点进行更新

体检监控问题  第2张

主机页面刷新频率:

此页面有缓存机制,进来后看到的是之前的缓存信息,需要等待1分钟才会刷新,刷新频率1分钟1次。

例如,进来主机页面后CPU是2%,然后进去子页面看主机信息,10分钟后跳转到主机页面,发现还是10分钟前的信息,需要等待1分钟才会刷新为最新数据CPU3%

体检监控问题  第3张

 

10、主机体检报告详情->系统安全->异常登录检查里->登录IP:显示主机名,并没有显示IP,如图

问题解答:

因为在用rdp连接windows时不一定能获取到IP,这个时候就会使用主机名
具体远程时不能获取IP原因可以参考这两篇文章
https://serverfault.com/questions/399878/security-log-in-event-viewer-does-not-store-ips
https://cyberarms.net/security-insights/security-lab/remote-desktop-logging-of-ip-address-(security-event-log-4625).aspx

体检监控问题  第4张

 

11、主机体检报告详情->系统安全->异常登录检查里->登陆次数:21424次登陆失败,具体能通过哪里查看该详细日志?

问题解答:

登录目标主机,在计算机管理->事务查看器->Windows日志->安全->筛选当前日志:输入ID 4625(登录失败的ID),选择时间范围即可搜索相关日志。

体检监控问题  第5张

体检监控问题  第6张

 

12、体检中心->体检结果汇总->性能负载体检的时间是哪段时间的:

问题解答:

这一块是近24小时负载均值,例如,最近体检时间是1月2日9点,那他告警的就是1月1日9点到1月2日9点这段时间的均值,所以即使现在内存已经恢复正常,体检显示的还会是负载较高;

 

13、主机体检是否有系统的漏洞提醒?

问题解答:

i、行云管家不是深度的安全产品,要实现系统漏洞检查与修复,这块工作量非常大,需要投入大量的人力,行云管家未来也会考虑和其它专业的安全类产品进行合作来实现这部分功能;

ii、行云管家当前的安全体检项,是以行云管家在运维领域的专业经验,选取的几个比较有代表性的系统设置作为体检项;

iii、行云管家的体检项还在持续增加中;

 

14、导出报告能不能导出一个整体使用情况的报告

问题解答:

整体使用报告这个目前还没有,会在后续版本中实现;

 

15、在主机体检报告里,为什么有些体检项无法检测?

问题解答:

行云管家的云主机体检报告是对主机每天的运行情况进行分析和检测,所分析的运行数据来源于云厂商提供的监控数据。因此,如果发现某项指标无法检测,请做如下检查:

i、是否具备体检的基本条件:例如某些主机没有公网IP,那么部分安全性指标及公网出站负载检测将无法进行;

ii、是否已开启该监控项:行云管家不会默认将所有监控项都开启,要对某项指标进行体检,需要开启相关监控项

iii、某些监控项需要安装云厂商的监控插件才能获取,如内存、TCP连接数等,因此建议您确保云主机都已安装好监控插件并正常运行(延伸阅读:安装阿里云监控插件安装腾讯云监控插件)。

 

16、CPU告警设置里的CPU User、IOWait、System分别是什么意思?

体检监控问题  第6张

问题解答:

这里是对应linux里top命令里的%Cpu(s)

us:us, user : time running un-niced user processes 用户空间占用CPU百分比

sy, system:time running kernel processes 内核空间占用CPU百分比

wa, IO-wait:time waiting for I/O completion 等待输入输出的CPU时间百分比;

 

17、私有部署版暂不支持体检报告的导出

问题解答:

私有部署版暂不支持体检报告的导出,SaaS版支持,具体实现时间待定;