首页 > 其他分享 >线上问题排查思路

线上问题排查思路

时间:2024-10-09 22:35:06浏览次数:7  
标签:分析 转储 问题 排查 线程 线上 监控 思路 日志

1.问题确认与收集

  • 问题描述 :明确问题的具体表现,比如系统慢,服务不可用,数据异常等
  • 影响范围: 确定问题影响的用户群体,功能模块或服务
  • 时间点:确定问题发生的事件,是持续性还是间歇性
  • 环境信息: 收集环境信息,服务器配置,jdk版本,应用版本等

2.快速响应

  • 评估严重程度:根据影响范围和业务的重要性评估问题严重程度
  • 应急措施 :考虑紧急措施,如服务降级,流量控制回滚版本

3.日志分析

  • 应用日志: 检查应用日志的错误信息,异常堆栈等
  • 系统日志:查看操作系统日志 如linux 的 /var/log/messages
  • 中间件日志: 检查数据,缓存,消息队列等中间件的日志

4. 监控数据分析

  • 系统监控:查看cpu ,内存,磁盘 IO,网络等系统资源使用情况。
  • jvm 监控: 分析 GC日志,堆内存使用,线程状态等
  • 应用性能监控: 检查请求响应事件,吞吐量,错误率等指标

5. 网络分析

  • 网络连接:检查网络连接状态,如防火墙设置,端口开放情况。
  • 网络性能:分析网络延迟,丢包率等指标

6.数据库分析

  • 慢日志:检查是否存在性能低下的SQL语句
  • 数据库状态: 查看数据库连接数,锁等待情况等
  • 执行计划 分析关键SQL执行计划是否合理

7.代码级别分析

  • 线程转储 :获取java 线程转储 (THREAD DUMP ) 分析线程状态
  • 堆转储: 必要时获取堆转储 HEAD DUMP 分析内存问题
  • 代码回顾:检查最近代码变更,是否引入新的bug

8.性能风险与监控工具的使用

  • Profiler :使用 althas,jvisualvm 等工具进行cpu 和内存分析
  • 监控工具: 使用 prometheus,grafana,skywalking 等工具进行全链路跟踪

9.复现问题

  • 在测试环境中常使复现问题,以便深入分析
  • 模拟生产环境的负载和数据量

10 根因分析

  • 基于收集到的所有信息 ,进行根因分析

11.解决方案

  • 制定短期解决方案以快速修复问题
  • 规划长期方案,防止类似的问题再次发生

12. 验证和监控

  • 在测试环境验证解决方案的有效性
  • 谨慎将方案应用到生产环境
  • 持续监控系统,确保问题得到彻底解决

13 复盘与总结

  • 编写详细的问题分析报告
  • 总结经验教训,更新相关文档和最佳实践

标签:分析,转储,问题,排查,线程,线上,监控,思路,日志
From: https://www.cnblogs.com/yg_zhang/p/18455321

相关文章

  • 2020年华为杯数学建模竞赛A题代码和思路
    ASIC芯片上的载波恢复DSP算法设计与实现随着数字信号处理(DSP)技术的成熟以及芯片技术工艺的飞速发展,作为光传输领域中的关键技术之一,光数字信号处理在专用集成电路(ASIC)上的实现成为了研究重点。本文围绕着ASIC芯片中DSP算法设计流程中的主要步骤和常见问题,通过建立16QAM数......
  • 培训行业为什么要搭建自己的知识付费小程序平台?集师知识付费系统 集师知识付费小程序
    在当今这个信息爆炸的时代,培训行业正面临前所未有的变革与挑战。传统的线下授课模式虽然经典,但在互联网技术的冲击下,其局限性日益凸显。为了更好地适应市场需求,提升服务效率与用户体验,培训行业亟需搭建自己的知识付费小程序平台。小程序平台能够打破时间与空间的限制,让学员随......
  • LeetCode 11 Container with Most Water 解题思路和python代码
    题目:Youaregivenanintegerarrayheightoflengthn.Therearenverticallinesdrawnsuchthatthetwoendpointsoftheithlineare(i,0)and(i,height[i]).Findtwolinesthattogetherwiththex-axisformacontainer,suchthatthecontainerco......
  • 【开题报告】基于Springboot+vue数字集成电路设计课程线上仿真实验平台的设计与实现(程
    本系统(程序+源码)带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着信息技术的飞速发展,数字集成电路设计已成为现代电子工程领域的核心技能之一。然而,传统的教学模式受限于物理实验室资源、时间地点等因素,难以满足......
  • 【问题解决】remote: parse error: Invalid numeric literal at line 1, column 20,解
    问题现象某同事出现过同样的推送到git仓库报错的问题,报错信息详情如下:Deltacompresionusingupto20threadsCompressingobjects:100%(4/4),done.Writingobjects:100%(5/5),521bytes|521.00KiB/s,done.Total5(delta3),reused0(delta0),pack-reused0r......
  • 达梦混合操作事务阻塞排查
    在一些项目中经常有用户反馈为什么一些查询SQL会导致阻塞,在数据库中查询是不应该阻塞读写操作的,现根据下面示例模拟相关业务场景。createtabledmtest(idint,namevarchar(10));insertintodmtestvalues(1,'a');insertintodmtestvalues(2,'b');insertintodmtestva......
  • 基于Springboot+Vue的线上课堂系统(含源码数据库)
    1.开发环境开发系统:Windows10/11架构模式:MVC/前后端分离JDK版本:JavaJDK1.8开发工具:IDEA数据库版本:mysql5.7或8.0数据库可视化工具:navicat服务器:SpringBoot自带apachetomcat主要技术:Java,Springboot,mybatis,mysql,vue2.视频演示地址3.功能系统中......
  • 基于java+springboot的医学电子技术线上翻转课堂系统(源码+lw+部署文档+讲解等)
    课题简介医学电子技术线上翻转课堂系统基于Java和SpringBoot开发,是为医学教育领域量身打造的创新教学平台。该系统借助Java的稳定性和强大性能,以及SpringBoot的高效开发特性,确保系统能够稳定运行且易于维护和扩展。它涵盖了丰富的功能模块,包括课程资源管理、学......
  • LeetCode hot100-二叉树篇思路总结
    跌跌撞撞看代码随想录看leetcode官方题解,终于写完了hot100的二叉树部分。这是我第一次学习如何正式的用java去写一个二叉树首先在自己的编译器里定义一个TreeNode类,以便于后面刷题的时候复用publicclassTreeNode{intval;TreeNodeleft;TreeNoderight;......
  • Linux运维常见故障排查和处理的技巧汇总
    常见问题解决集锦1.shell脚本不执行问题:某天研发某同事找我说帮他看看他写的shell脚本,死活不执行,报错。我看了下,脚本很简单,也没有常规性的错误,报“:badinterpreter:Nosuchfileordirectory”错。看这错,我就问他是不是在windows下编写的脚本,然后在上传到linux服务器的……......