2022年9月8日,
一个秋高气爽阳光明媚的日子。
正当我优雅的端起coffee,
专注投入早A晚C的重要一环时,
光头老邱按下一沓资料,
一并丢下经典语录:
这个客户对我们很重要!
emmm......
重要的客户托付给重要的我,
没毛病。
是时候展示真正的技术了!
第一步,客户现状&问题分析
①
医院信息化管理系统
电子病历系统
区域医疗信息互联互通基本完善
然鹅,
各厂商独立监控、数据割裂,
缺乏统一监管工具。
②
现阶段医院处于上新系统时期,
可能出现较多不确定因素。
业务需要快速定位问题,辅助新系统调优。
③
资源管理难
医院数据中心对服务器CPU、
内存等计算资源,
磁盘空间、磁盘I/O等存储资源
缺乏科学有效的资源管理
对系统应用节点和数据的
各项性能参数配置等数据把控不足。
④
告警风暴
医院业务系统复杂,各厂商监控独立
当业务系统发生异常时
只从设备层和系统层分析问题,
很难定位到业务或应用的问题根因
易产生过多告警信息,
使运维人员淹没在告警风暴中无从判断
运维压力及复杂度飙升。
第二步,服务方案&目标
①
能够实时、及时有效地发现异常
对该医院服务器、交换机、路由器、
存储、oracle数据库、SQL SERVER数据库、
中间件等所有设备和应用进行实时监控。
实时监测,将故障响应级别提升到分钟级。
②
提供强大的AI数据分析功能
如日志集中采集、分析挖掘、快速定位
为事件的分析、溯源提供有力支撑;
③
告警管理
对IT设备和应用进行7*24的实时监控,
一旦出现运行故障或性能指标异常,
告警信息便会通过短信、邮件等方式自动推送。
对短时间内大量发生的重复告警
和无效告警进行压缩、去重,识别有效告警。
避免无效告警、告警风暴的发生。
④
可视化大屏
展示数据中心各种业务系统、
网络设备等丰富监控状态
全息动态展示。
⑤
自动巡检
快速聚焦问题且提升效率。
支持周期巡检或实时巡检,
时刻掌握系统运行状态。
okk
一顿梳理操作后,
第三步,客户服务推进
添加客户工程师微信
万万没想到!
客户对我的好友申,果断拒绝!
again~详细的备注和谦虚的问候发出
客户依旧无视我的热情.....
常言道,一鼓作气,再而衰。
相信缘分吧!
设备接入系统的第二天,
不出意外地出现异常告警。
电话端,我成功捞到客户工程师。
在我一番详尽专业的问题描述后
对方表示:too naive~
这个小问题不用在意
挂断电话,准备摆烂
冷静了3秒后我意识到
情况不对呀!
首先,
一个优秀的战士怎么能轻易退出战场?
其次,
让用户知道充分掌握系统运行状态
是我的应尽之责。
于是优秀的我开始整活。
10分钟后
一份故障定位及解决方案
优雅的抵达客户邮箱
经过反复的云端拉扯
双方基本掌握彼此的战略战术,
在漫长的磨合与相互成就中
达到默契相守、高效运维!
(这是后话)
面对告警问题
客户从被动变主动处理
进一步确定微信好友关系
虽没有嘘寒问暖,但偶有点赞喊话
状态持续到12月份
LinkSLA系统版本升级,v4升级到v5版
功能优化升级,服务质量更高。
全面快速地连接新老设备、
IT资源、动环设施、IOT设备,
集中采集监控和告警管理,
同时支持对接其他系统数据。
夜间异常告警,服务器批量重启
cis数据库告警,磁盘损坏,CPU使用异常
moc第一时间定位排查到
客户好感度和信任值逐渐拉满
在一个风雨交加电闪雷鸣的早上
正当我像往常一样查看系统
OMG!一下子接入293个资产,
用户核心资产全部接入!
众所周知,客户资产接入越多
数据来源越完整,故障定位分析就越准确
排查和恢复的效率就越高,
运维的效果就更能凸显
服务的价值更深入!
无论何时,
立足需求、提升效率
创造价值,自有万钧之力。
在长期的实践中,
用户很容易发现我们的优势
我们将运维从技术支持领域升级服务,
降低运维成本
提高运维效率
琐碎的、重复的事情由AI完成
实时或周期性自动巡检
提前预警,快速定位问题。
全天候实时展示
各项资源和应用系统的整体运行情况。
通过智能化运维
使错综复杂的运维管理工作变的简单、高效。
标签:监控,运维,大腿,系统,实时,案例,客户,抱紧,告警 From: https://blog.51cto.com/u_15576159/5938856