首页 > 其他分享 >20240509线上问题排查

20240509线上问题排查

时间:2024-05-09 18:03:43浏览次数:25  
标签:github blog 排查 线上 https 20240509 com page 内存

iotop -oP
pidstat -d 1
mpstat -P ALL 5
cat /proc/*/status|grep -E 'State:.*Z.*|State:.*D.*' -A 10 -B 2  
top
https://blog.csdn.net/chrisy521/article/details/128532234
db.system.profile.find({"millis":{$gte:500}}).limit(10).sort( { ts : -1 } ).pretty()



/qaxdata/s/services/mongo/27017/bin/mongostat --uri=$(/qaxdata/s/services/etcd/etcd_2483/bin/etcdctl --endpoints=127.0.0.1:2483 get --prefix=true da.xian.test|egrep "mongo:\/\/"|tail -n 1|sed 's#^mongo://#mongodb://#g'|sed 's/\(.*\?\)?.*/\1\?replicaset=mongorepl\&authSource=admin/g')


大页
https://blog.csdn.net/liu16659/article/details/80942461

page cache
https://blog.whysdomain.com/blog/360/

脏页和numa
https://github.com/moooofly/MarkSomethingDown/blob/master/Linux/CPU%20%E9%9A%94%E7%A6%BB%E4%B9%8B%20numactl.md
https://blog.51cto.com/u_13527/8131679
https://github.com/plantegg/programmer_case/blob/main/CPU/十年后数据库还是不敢拥抱NUMA.md

mongo优化方向
https://juejin.cn/post/7345300528703012901


硬件优化
https://docs.openeuler.org/zh/docs/22.09/docs/SystemOptimization/大数据调优指南.html

大页和验证大页使用情况
https://help.aliyun.com/zh/ecs/transparent-huge-page-thp-related-performance-optimization-in-alibaba-cloud-linux-2

脏页
https://zhuanlan.zhihu.com/p/355131426

采集io相关数据
sar -B 1
https://blog.haohtml.com/archives/14760/
https://blog.whysdomain.com/blog/360/

pgscank/s: kswapd(后台回收线程) 每秒扫描的page个数
pgscand/s: 应用程序在内存申请过程中每秒直接扫描的page个数
pgsteal/s: 扫描的page中每秒被回收的个数
%vmeff: pgsteal/(pgscank+pgscand), 回收效率,越接近100说明系统越安全,越接近0说明系统内存压力越大。
majflt/s: 这个数值增长一般说明需要进行i/o操作,所需的内存页不在主存中,需要与磁盘或者swap分区交互.

https://blog.haohtml.com/archives/14760/
https://www.jianshu.com/p/3991c0dba094
https://xujinzh.github.io/2022/03/30/linux-hard-disk-read-write-statistics/index.html

# pidstat -u -r -d -t 1        
# -u CPU 使用率
# -r 缺页及内存信息
# -d IO 信息
# -t 以线程为统计单位
# 1  1 秒统计一次

[root@xxxx_wan360_game ~]# pidstat -u -r -d -t 1

https://jaminzhang.github.io/os/Linux-IO-Monitoring-and-Deep-Analysis/

重点

https://blog.whysdomain.com/blog/360/

https://zhuanlan.zhihu.com/p/343661117

https://github.com/plantegg/programmer_case/blob/main/CPU/十年后数据库还是不敢拥抱NUMA.md

https://zhuanlan.zhihu.com/p/458308735

http://www.anger6.com/2022/01/17/high_performance/性能分析---内存篇page_fault/

https://blog.haohtml.com/archives/14760/

https://ivanzz1001.github.io/records/post/linuxops/2017/11/19/linux-performance-debug

  • minflt/s: 指的是minor faults,当需要访问的物理页面因为某些原因(比如共享页面、缓存机制)已经存在于物理内存中了,只是在当前进程的页表中没有引用,MMU只需要设置对应的entry就可以了,这个代价是相当小的。

  • majflt/s: 指的是major faults,MMU需要在当前可用物理内存中申请一块空闲的物理页面(如果没有可用的空闲页面,则需要将别的物理页面切换到交换空间去以释放得到空闲物理页面),然后从外部加载数据到该物理页面中,并设置好对应的entry,这个代价是相当高的,和前者有几个数据级的差异。

标签:github,blog,排查,线上,https,20240509,com,page,内存
From: https://www.cnblogs.com/tiantao36/p/18182831

相关文章

  • 20240509xxx集群xx节点PLEG超时问题
    20240509xxx集群xx节点PLEG超时问题//20240509写在前面xxx集群xx节点又又又又又卡住了,经过一系列排查,终于解决了问题,由于这次找到了通用解法,所以在此记录下ps:国内的搜索引擎是真的shi。。搜出来的帖子都是抄来抄去的,还不解决问题,还得是google/大拇指问题起因:偷得浮生半日......
  • 云服务器遭到黑客入侵植入木马病毒排查过程
    1、问题说明在一个安静的下午,突然手机上面接收到云服务器厂商发的一条短信。短信内容为服务器疑似被木马病毒入侵,监测到病毒文件。然后我就使用FinalShell登录服务器准备进去看一看,刚登陆进去FinalShell左边监控程序显示cpu占用100%。服务器正常来说cpu只会在3%~9%之间,突然这个CP......
  • 记一次线上Redis内存占用过高、大Key问题的排查
    问题背景在一个风和日丽的下午,公司某项目现场运维同学反馈,生产环境3个Redis的Sentinel集群节点内存占用都很高,达到了17GB的内存占用量。稍加思索,应该是某些Key的Value数据体量过大,占用了过多的内存空间,我们在使用Redis的过程中,单个Value或者单个集合中的元素应该保证不超过10KB,......
  • 在Linux中,如何排查网络连接问题?
    排查Linux中的网络连接问题通常遵循一套标准流程,旨在识别并解决从硬件层面到软件配置的各类问题。以下是一个详细的排查步骤:1.检查物理连接确保网线连接稳固,无物理损坏,尝试更换网线或端口。检查网络设备(如交换机、路由器)的端口状态和连接。2.使用ping命令测试连通性ping......
  • 在Linux中,如何使用strace进行故障排查?
    在Linux中,strace是一个非常有用的工具,用于跟踪和诊断系统调用和信号。它可以帮助你理解程序如何与内核交互,并可以用来进行故障排查。以下是使用strace进行故障排查的详细步骤:1.理解strace的基本概念strace可以跟踪进程执行的每一个系统调用和信号。它可以显示系统调用的参数......
  • 在Linux中,如何排查硬件故障?
    排查Linux系统中的硬件故障是一个系统化的过程,涉及到对不同硬件组件的检查和分析。以下是排查硬件故障的详细步骤:1.使用系统日志和诊断工具dmesg:运行dmesg命令查看内核消息缓冲区,可以发现启动时的硬件错误信息。journalctl:对于使用systemd的系统,使用journalctl-k查......
  • 在Linux中,如何排查系统启动问题?
    在Linux中排查系统启动问题通常涉及几个关键步骤,包括但不限于检查日志文件、使用救援模式、分析启动过程中的错误信息等。以下是一个详细的排查流程:1.安全模式或救援模式启动单用户模式:如果系统能够启动到一定程度,尝试进入单用户模式(某些发行版中可能是救援模式)。这可以通过......
  • ISCC线上赛2023
    ISCC线上赛2023webweb1双重base解码得到flagweb3F12控制台查看可找到loveStory.phpEnc.phpdownload.php,loveStory.php为反序列源码boy::__destruct()-->girl()::__call()-->helper()::__isset()-->boy()::__toString()-->helper()::__get()-->love_story()::__love()......
  • 网络丢包排查方法
    一、硬件网卡丢包1.RingBuffer溢出RingBuffer(环形缓冲区)溢出是指当往一个已经满了的环形缓冲区中写入数据时,会覆盖之前存储在缓冲区中的数据。这种情况通常发生在写入速度快于读取速度的情况下。1.查看RingBuffer满而丢弃的包统计(fifo字段)$ethtool-Seth0|greprx_fif......
  • 为什么会查询不到DNS信息?怎么排查?
    DNS(域名系统)是将域名转换为相应IP地址的关键系统。查询DNS信息具有重要作用,通过查询DNS信息,我们可以知道域名对应的IP地址,这是最主要的信息,使设备能与目标服务器进行通信;其次是域名的相关记录,如MX记录(邮件交换记录)等,了解与邮件服务相关的信息;以及域名的状态,如是否正常等......