1.问题确认与收集

问题描述：明确问题的具体表现，比如系统慢，服务不可用，数据异常等
影响范围：确定问题影响的用户群体，功能模块或服务
时间点：确定问题发生的事件，是持续性还是间歇性
环境信息: 收集环境信息，服务器配置，jdk版本，应用版本等

2.快速响应

评估严重程度：根据影响范围和业务的重要性评估问题严重程度
应急措施：考虑紧急措施，如服务降级，流量控制回滚版本

3.日志分析

应用日志：检查应用日志的错误信息，异常堆栈等
系统日志：查看操作系统日志如linux 的 /var/log/messages
中间件日志：检查数据，缓存，消息队列等中间件的日志

4. 监控数据分析

系统监控：查看cpu ，内存，磁盘 IO,网络等系统资源使用情况。
jvm 监控：分析 GC日志，堆内存使用，线程状态等
应用性能监控：检查请求响应事件，吞吐量，错误率等指标

5. 网络分析

网络连接：检查网络连接状态，如防火墙设置，端口开放情况。
网络性能：分析网络延迟，丢包率等指标

6.数据库分析

慢日志：检查是否存在性能低下的SQL语句
数据库状态：查看数据库连接数，锁等待情况等
执行计划分析关键SQL执行计划是否合理

7.代码级别分析

线程转储：获取java 线程转储（THREAD DUMP ) 分析线程状态
堆转储：必要时获取堆转储 HEAD DUMP 分析内存问题
代码回顾：检查最近代码变更，是否引入新的bug

8.性能风险与监控工具的使用

Profiler :使用 althas，jvisualvm 等工具进行cpu 和内存分析
监控工具：使用 prometheus,grafana,skywalking 等工具进行全链路跟踪

9.复现问题

在测试环境中常使复现问题，以便深入分析
模拟生产环境的负载和数据量

10 根因分析

基于收集到的所有信息，进行根因分析

11.解决方案

制定短期解决方案以快速修复问题
规划长期方案，防止类似的问题再次发生

12. 验证和监控

在测试环境验证解决方案的有效性
谨慎将方案应用到生产环境
持续监控系统，确保问题得到彻底解决

13 复盘与总结

编写详细的问题分析报告
总结经验教训，更新相关文档和最佳实践

标签：分析,转储,问题,排查,线程,线上,监控,思路,日志
From： https://www.cnblogs.com/yg_zhang/p/18455321

2020年华为杯数学建模竞赛A题代码和思路
ASIC芯片上的载波恢复DSP算法设计与实现随着数字信号处理（DSP）技术的成熟以及芯片技术工艺的飞速发展，作为光传输领域中的关键技术之一，光数字信号处理在专用集成电路（ASIC）上的实现成为了研究重点。本文围绕着ASIC芯片中DSP算法设计流程中的主要步骤和常见问题，通过建立16QAM数......
培训行业为什么要搭建自己的知识付费小程序平台？集师知识付费系统集师知识付费小程序
在当今这个信息爆炸的时代，培训行业正面临前所未有的变革与挑战。传统的线下授课模式虽然经典，但在互联网技术的冲击下，其局限性日益凸显。为了更好地适应市场需求，提升服务效率与用户体验，培训行业亟需搭建自己的知识付费小程序平台。小程序平台能够打破时间与空间的限制，让学员随......
LeetCode 11 Container with Most Water 解题思路和python代码
题目：Youaregivenanintegerarrayheightoflengthn.Therearenverticallinesdrawnsuchthatthetwoendpointsoftheithlineare(i,0)and(i,height[i]).Findtwolinesthattogetherwiththex-axisformacontainer,suchthatthecontainerco......
【开题报告】基于Springboot+vue数字集成电路设计课程线上仿真实验平台的设计与实现（程
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着信息技术的飞速发展，数字集成电路设计已成为现代电子工程领域的核心技能之一。然而，传统的教学模式受限于物理实验室资源、时间地点等因素，难以满足......
【问题解决】remote: parse error: Invalid numeric literal at line 1, column 20，解
问题现象某同事出现过同样的推送到git仓库报错的问题，报错信息详情如下：Deltacompresionusingupto20threadsCompressingobjects:100%(4/4),done.Writingobjects:100%(5/5),521bytes|521.00KiB/s,done.Total5(delta3),reused0(delta0),pack-reused0r......
达梦混合操作事务阻塞排查
在一些项目中经常有用户反馈为什么一些查询SQL会导致阻塞，在数据库中查询是不应该阻塞读写操作的，现根据下面示例模拟相关业务场景。createtabledmtest(idint,namevarchar(10));insertintodmtestvalues(1,'a');insertintodmtestvalues(2,'b');insertintodmtestva......
基于Springboot+Vue的线上课堂系统（含源码数据库）
1.开发环境开发系统:Windows10/11架构模式:MVC/前后端分离JDK版本:JavaJDK1.8开发工具:IDEA数据库版本:mysql5.7或8.0数据库可视化工具:navicat服务器:SpringBoot自带apachetomcat主要技术:Java,Springboot,mybatis,mysql,vue2.视频演示地址3.功能系统中......
基于java+springboot的医学电子技术线上翻转课堂系统(源码+lw+部署文档+讲解等)
课题简介医学电子技术线上翻转课堂系统基于Java和SpringBoot开发，是为医学教育领域量身打造的创新教学平台。该系统借助Java的稳定性和强大性能，以及SpringBoot的高效开发特性，确保系统能够稳定运行且易于维护和扩展。它涵盖了丰富的功能模块，包括课程资源管理、学......
LeetCode hot100-二叉树篇思路总结
跌跌撞撞看代码随想录看leetcode官方题解，终于写完了hot100的二叉树部分。这是我第一次学习如何正式的用java去写一个二叉树首先在自己的编译器里定义一个TreeNode类，以便于后面刷题的时候复用publicclassTreeNode{intval;TreeNodeleft;TreeNoderight;......
Linux运维常见故障排查和处理的技巧汇总
常见问题解决集锦1.shell脚本不执行问题：某天研发某同事找我说帮他看看他写的shell脚本，死活不执行，报错。我看了下，脚本很简单，也没有常规性的错误，报“:badinterpreter:Nosuchfileordirectory”错。看这错，我就问他是不是在windows下编写的脚本，然后在上传到linux服务器的……......

线上问题排查思路

1.问题确认与收集

2.快速响应

3.日志分析

4. 监控数据分析

5. 网络分析

6.数据库分析

7.代码级别分析

8.性能风险与监控工具的使用

9.复现问题

10 根因分析

11.解决方案

12. 验证和监控

13 复盘与总结

相关文章

赞助商

阅读排行