使用链接LinkedAlerthttp://alertaiops.linkedsee.com/user/login
一、编写概述
二、告警平台数据管理
2.1 告警集成
三、策略中心
3.1 告警合并
3.2 告警分发
3.3 值班表
四、系统管理
4.1 用户管理
4.2 个人中心
4.3 配置中心
五、 仪表盘
5.1 告警统计
六、告警中心
6.1 告警展示
6.2页面声光告警
6.3告警转发和处理
一、编写概述
本文档针对告警管理平台实施项目需求制定了技术实施方案,说明该项目在技术和实施方面的可行性。本文档阅读人员为与相关告警管理平台实施项目相关的业务人员、技术人员和项目经理。
LinkedAlert告警是针对告警进行集成处理。通过接入用户使用的告警平台,将告警推送进本平台后,通过合并策略和分发策略,针对不同的告警不同的需求处理。通过配置通知策略可以将处理后的告警推送给指定的用户、小组或者值班表。通过配置通知消息模版可以发送用户关心的告警数据。
二、告警平台数据管理
2.1 告警集成
在告警集成界面,用户可以配置zabbix、Open-Falcon、Prometheus、Cacti、Monitor、Solatwinds、AirWave、Custom、Grafana和Elastic等告警平台。
2.1.1 对接zabbix告警源
以Zabbix监控系统的告警接入为例,告警记入主要分为服务端(告警平台端)和数据源端(监控系统端)的配置。在服务段的配置主要包括实例名称(告警源名称)、数据示例、字段映射。
实例名字主要用来定义标识告警源的名称,也用来做告警数据的分组,便于后面的告警合并和告警分发。
Zabbix告警接入
2.1.2 对接Prometheus告警源
Prometheus告警接入
2.1.3 对接 Kibana Alerting 告警源
通过API方式与告警平台对接
2.1.4 对接 Webhook 告警源
Webhook告警接入
2.1.5 告警内容自定义
数据示例主要用来记录数据源端发过来的告警格式,进行字段信息提取和转义。
告警接入内容解析
解析完告警格式后,可以根据告警内容中包含的字段信息与告警平台需要的字段信息进行关系映射。告警平台需要的字段分为两类:必要字段、非必要字段。必要字段中包含:内容、等级、发生时间,非必要字段中包含:CMDB关联字段、类型、自定义字段。其中CMDB关联字段是后续跟CDMB数据进行关联的唯一标识。自定义字段可以动态增删,可以基于自定义字段对告警内容进行丰富。
告警内容自定义
2.1.6 HTTP模拟请求过程
无监控系统可通过postman或者http模拟请求测试
JSON示例:
{
"source": "Zabbix server",
"ipaddress": "127.0.0.1",
"description": "cpu监控项 ",
"severity": "Disaster",
"nseverity": "5",
"status": "PROBLEM",
"genre": "undetermined",
"create_time": "2022.08.12 10:46:22",
"item": "CPU idle time",
"event_id": "41476229",
"hostgroups": "Zabbix servers"
}
配置json解析后可在服务端配置页面点击下载脚本获取token地址,使用Post方式模拟请求
三、策略中心
在告警处理阶段,本产品提供了合并策略和分发策略。合并策略用于将重复告警合并成一条告警,避免出现告警风暴的情况。分发策略用于将告警按需求匹配分发到对应的处理人员。实现精准合并,快速分配,准确通知的效果。
3.1 告警合并
告警源的告警接入告警平台后,可以通过告警合并规则对告警进行合并收敛。首先可以创建告警合并策略,告警合并策略创建完成后可以提供编辑、删除、修改的的配置操作,也可以根据需要对告警合并策略进行开启和关闭的操作。
告警合并策略列表
告警合并策略添加的过程中,依次填写策略名称、接入类型、CMDB层级(选择)、合并周期。CMDB层级的信息是告警平台从CMDB系统同步过来,可以支持根据告警所在的CMDB节点来合并告警。
添加告警合并策略基本信息
选择接入类型(告警源类型)后,可以根据告警源包含的告警字段信息,或通过算法方式根据IP地址进行告警合并。
添加告警合并策略压缩条件
压缩规则支持AND和OR逻辑。主机、内容支持包含、正则方式来匹配,告警等级支持==、>、<、<=、>=方式来匹配告警等级。在配置的过程中,可以支持上移、下移来编辑压缩条件,内置的逻辑是按照顺序来匹配,匹配中后即停止匹配。
添加告警合并策略AND和OR逻辑
添加告警合并策略等级匹配方式
告警合并后,在告警列表中可以看到被合并的原始告警数量和原始信息。
告警合并效果展示
3.2 告警分发
通过告警分发功能可以对告警消息进行精准发送,首先可以支持配置告警分发条件来发送告警,分发条件可以在页面对告警字段进行配置,比如:对告警发生源的正则匹配或正则不匹配条件,对告警内容的正则匹配或包含条件,对告警级别的==、<=、>=、>、<条件。其次是可以通过升级策略来实现告警的升级发送,升级策略主要包含分发对象和升级时间,同时也可以通过开启策略轮询的方式来轮询发送告警。
3.3 值班表
告警平台支持在创建值班表的过程中跟用户信息进行联动。
创建值班表关联用户信息
四、系统管理
4.1 用户管理
4.1.1用户列表
系统支持与通过页面方式对账户的增、删、改功能。
告警平台用户列表
4.1.2 部门管理
告警平台支持三个等级部门共同使用,最高部门等级可查看下属部门告警分析,并支持将账户转到相应部门,各层级数据互不相同。
部门列表
4.1.3 用户组管理
告警平台支持配置用户组,并提供增、删、改、查功能。可通过搜索姓名进行快速选择相应成员,便于后期配置通知策略。
小组列表展示
创建小组展示
4.2 个人中心
告警平台支持在个人中心支持换绑手机号码、修改密码、绑定企业微信号、可单独关闭邮件和企业微信告警通知。
4.3 配置中心
4.3.1 通知策略
在配置中心中可以对通知策略进行配置管理,其中工作时间可以根据需要灵活设置。系统初始化的时候会设置默认工作时间为8:30 ~ 18:30,如果需要调整点击编辑按钮,调整完成后,选择保存即可。工作时间配置好后。
工作时间定义
工作时间定义好后,可以在创建通知策略的过程中,选择相应的通知时间来匹配不同的通知策略,同时时间的类型包含任何时间、工作时间、非工作时间、系统维护时间四大类。
工作时间定义的应用
4.3.1.1 创建值班表通知
告警平台支持报警到值班表的当前值班人员。运维工程师在工作过程中会设置值班时间,对于同一个运维工程师,值班时间和非值班时间对于告警的接收方式会有差别。告警管理平台可以支持针对系统成员或者成员组来配置值班规则。创建值班表需要依次填写名称、开始时间、换班时间、值班人员、值班周期,配置完成后,可以在日历上面看到详细的值班安排。创建的值班表,可以进行编辑和删除操作。
创建值班表
在值班表配置好后可以在告警通知的时候选择发送给值班表,系统会根据值班表当天对应的值班人员(运维工程师)发送告警。
报警通知到值班表的当前值班人员
4.3.1.2 创建小组通知
告警平台支持已以组为单位通知告警。
以组为单位通知告警
4.3.2 通知消息模板
告警平台支持自定义消息模板,可按照重点内容排序展示
4.3.3 通道设置
4.3.3.1 邮件告警通知
告警平台的多种通知方式中包含邮件告警通知,邮件告警通知需要配置本地的邮箱(POP3或者SMTP或者Exchange)账号信息。系统可以支持通过测试邮箱来验证邮件通道是否畅通。
邮件通道配置
4.3.3.2 短信告警通知
告警平台的多种通知方式中包含短信告警通知,短信通知方式需要配置手机号码。发送短信的通道可以用告警平台自带的接口,也可以用本地的短信网关。
短信通道验证
4.3.3.3电话告警通知
告警平台的多种通知方式中包含电话告警通知,电话通知方式需要配置手机号码。发送电话的通道可以用告警平台自带的接口,也可以用本地的电话网关。
电话通道配置
4.3.3.4 微信告警通知
告警平台的多种通知方式中包含微信告警通知,微信通道需要用到企业微信,企业微信配置的过程中需要公司ID、corpsecret、agent ID这三个信息,微信通道可以支持多个,可以通过不同的通道名称来进行区分。
微信通道配置
4.3.3.5 微信群通知
告警平台支持以微信群通知的方式通知告警信息,需要用到企业微信群webhook地址接口即可。
企业微信机器人信息配置
微信群通知消息
告警平台调用企业微信机器人webhhok地址
4.3.3.6 钉钉群通知
平台支持以钉钉群通知的方式通知告警信息,需要在钉钉群添加智能助手后,调用智能助手的webhook地址接口即可。
钉钉群添加智能助手
告警平台调用智能助手webhook接口地址
4.3.3.7 飞书通知
在系统管理-配置中心-通道设置-飞书群通道,配置webhook及密钥即可
- 在飞书群设置内选择机器人,选择复制webhook地址 及签名效验即可
4.3.3.8 飞书应用通知
在系统管理-配置中心-通道设置-飞书应用通道,配置webhook及密钥即可
4.3.4 License
告警平台提供License授权管理功能,授权管理的对象主要是支持用户数量、通道余额、授权时间。
告警平台License授权管理
五、 仪表盘
5.1 告警统计
告警平台Dashboard页面可以展示实时,当日的分析数据,具体可以展示的内容如下:
1)当日新增告警、紧急告警、重要告警、次要告警、轻微告警、正常告警、已领取告警、已解决告警;
2)最近7日告警趋势;
3)系统内部当前top5警信息(包含告警时间、告警来源、告警内容)。
4)过去7日MTTR\过去7日MTTA
告警平台Dashboard展示页面
六、告警中心
6.1 告警展示
通过告警中心可以看到所有实时告警信息,包括我的告警和所有告警。针对告警列表可以支持告警ID或者告警主机快速查询,也可以支持按照告警等级、告警发生的时间、告警状态、告警所在的业务线、告警处理方式、告警接入类型(告警源)等多个属性进行查询。
告警列表展示
6.2页面声光告警
平台支持对最新告警根据不同等级播报不同声音进行告警提示,且不同等级告警使用不同颜色对告警标注提示。
页面声光告警
6.3告警转发和处理
告警平台可以转发给其他人处理,其他人可以代为接手报警处理,可以支持在告警列表中心进行接手响应操作,接手完成后的告警会进入我的告警,不再通知到其他人,如果告警处理完毕,故障回复告警可以自动关闭,没有恢复告警的情况下,也可以手动关闭告警。
告警接手和关闭
告警从产生开始的状态为告警待接手,有人接手后变成告警处理中,有人接手后会通知相关人告警状态有变更。告警处理中的告警可以移交给其他人,告警还是处理中的状态。告警处理人手动关闭(或者告警自动回复后自动关闭)后告警的状态变成告警已关闭。
处理流程图
标签:配置,4.3,通知,平台,SaaS,告警,值班 From: https://blog.51cto.com/u_12078549/5983592