首页 > 其他分享 >聊一聊 dotnet-trace 调查 lock锁竞争

聊一聊 dotnet-trace 调查 lock锁竞争

时间:2023-05-09 12:45:15浏览次数:43  
标签:00 trace ++ lock 聊一聊 dotnet lockMe

一:背景

1. 讲故事

最近在分析一个 linux 上的 dump,最后的诱因是大量的lock锁诱发的高频上下文切换,虽然问题告一段落,但我还想知道一点信息,所谓的高频到底有多高频?锁竞争到底是一个怎样的锁竞争? 如果了解这些信息对我们后续分析此类问题非常有帮助。

要想获取此类信息,看 dump 肯定是没有用的,只能给程序安装一个摄像头,在 Windows 平台上可以在 perfview 上配一个 Microsoft-Windows-DotNETRuntime:ContentionKeyword 事件轻松搞定,截图如下:

但 PerfView 是和 Windows 深度绑定的,那在 Linux 上怎么办呢? 对,有朋友知道用 dotnet-trace。

二:探究 dotnet-trace

1. 如何监控 lock 竞争

dotnet-trace 是 CLR 团队写的一个跨平台的小工具,专门用于获取 .NET 程序的各种事件,可以理解成 PerfView 的一个子集,这里安装就不说了,详见官方文档:https://learn.microsoft.com/en-us/dotnet/core/diagnostics/dotnet-trace

查阅文档之后,只需要在 --clrevents 中配 contention 事件即可,详情参见文档:https://learn.microsoft.com/en-us/dotnet/fundamentals/diagnostics/runtime-contention-events

2. 测试案例

为了方便解读,这里我故意造一个 锁护送 现象,参考代码如下:


    internal class Program
    {
        public static object lockMe = new object();

        static void Main(string[] args)
        {
            long i = 10;

            Parallel.For(0, int.MaxValue, new ParallelOptions() { MaxDegreeOfParallelism = 4 }, (j) =>
            {
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
            });
        }
    }

将程序跑起来后,使用 dotnet-trace ps 找到 PID,再用 dotnet-trace 进行跟踪,这里持续跟踪 1分钟。


[root@localhost ~]# dotnet-trace ps
 3316  dotnet  /usr/share/dotnet/dotnet  dotnet ConsoleApp3.dll  

[root@localhost ~]# dotnet-trace collect -p 3316 --clrevents contention --duration 00:00:01:00

Provider Name                           Keywords            Level               Enabled By
Microsoft-Windows-DotNETRuntime         0x0000000000004000  Informational(4)    --clrevents

Process        : /usr/share/dotnet/dotnet
Output File    : /root/dotnet_20230509_105906.nettrace
Trace Duration : 00:00:01:00
[00:00:01:00]	Recording trace 29.7885  (MB)
Press <Enter> or <Ctrl+C> to exit...148  (MB)
Stopping the trace. This may take several minutes depending on the application being traced.

Trace completed.

[root@localhost ~]# ls

anaconda-ks.cfg  dotnet_20230509_105906.nettrace  Music     Templates
Desktop          Downloads                        Pictures  Videos
Documents        initial-setup-ks.cfg             Public

3. nettrace 文件分析

至于分析 dotnet_20230509_105906.nettrace 的工具就特别多了,dotnet-trace,perf,perfview,visualstudio,不过我个人建议还是使用 prefview,因为它的洞察能力会更好,用 perfview 打开之后点击 EventStats 观察统计信息:

从图中可以看到 1min 的时间内生成了总计将近 200w 的 start 和 stop 事件。

有了统计信息还不行,我还想知道每一次 start 的详细信息,可以点击 perfview 中的 Events 面板中的 Microsoft-Windows-DotNETRuntime/Contention/Start 事件,可以看到记录中每一次争抢的开始时间。

有些朋友可能要问了,Start 和 Stop 到底代表什么意思,简而言之就是争抢的开始时间和结束时间,时间差就是排队时间,截图如下:

从图中可以看到,某些竞争锁的时候耗费了 1ms 的时间,同时得到调度的线程也不是串行的,比如 4232 号线程就得到了两次连续执行。

接下来回答最后一个问题,除了看到每一次lock竞争的详细信息,能不能看到每一次 lock 时的代码调用栈呢? 当然是可以的,毕竟 HasStack="True" ThreadID="3,316" ProcessorNumber="0" ContentionFlags="Managed" ClrInstanceID="0" 中的 HasStack="True" 就是告诉当前是有调用栈信息的,在 Time MSec 列点击右键选择 Open Any Stacks

从图中的线程栈可以看到,Start 事件是由 Main 方法中的 Parallel.For 诱发的,非常清楚。

三:总结

dotnet-trace 是一个非常强大的跨平台性能分析工具,构建在 EventPipe 之上,特点就是跨平台,除了对锁竞争外,还有其他的各种有趣的事件,有兴趣的朋友可以查阅查阅。

标签:00,trace,++,lock,聊一聊,dotnet,lockMe
From: https://www.cnblogs.com/huangxincheng/p/17384543.html

相关文章

  • 聊一聊redis十种数据类型及底层原理
    概述Redis是一个开源的高性能键值数据库,它支持多种数据类型,可以满足不同的业务需求。本文将介绍Redis的10种数据类型,分别是string(字符串)hash(哈希)list(列表)set(集合)zset(有序集合)stream(流)geospatial(地理)bitmap(位图)bitfield(位域)hyperloglog(基数统计)String概述string......
  • Linux运行卡死【INFO: task multipathd:5832 blocked for more than 120 seconds】
    目录问题背景分析过程解决方法问题背景系统在正常运行过程中,突然收到监控平台告警,服务器无法ping通。分析过程机房人员重启服务器后,查看/var/log/messages日志发现如下报错:May619:43:45xxxkernel:INFO:taskmultipathd:5832blockedformorethan120seconds.M......
  • Mixed Content: xxx This request has been blocked; the content must be served ove
    1.情景展示这是教师资格证,准考证的下载界面。当我们去点击“下载准考证”的时候,你将发现点击该按钮并没有反应。按F12,打开开发者工具。该网站,会自动进入断点调试模式,目的是为了:禁止前端开发者查看网页代码之类的吧。我们要想看看,为什么无法下载准考证,就不能够被它拦住。......
  • ReentrantReadWriteLock源码分析
    ReentrantLock是互斥锁,若存在读多写少同时保证线程安全的场景,ReentrantLock效率比较低,此时需要用到ReentrantReadWriteLock。一、ReentrantReadWriteLock介绍ReentrantReadWriteLock是可重入的读写锁,实现了ReadWriteLock接口,ReadWriteLock是读写锁的顶级接口,定义了readL......
  • ReentrantLock源码分析
    一、ReentrantLock介绍ReentrantLock是JDK1.5引入的,实现Lock接口的互斥锁。保证多线程的环境下,共享资源的原子性。与Synchronized的非公平锁不同,ReentrantLock的实现公平锁、非公平锁。ReentrantLock是重入锁,重入是指,同一个线程可以重复执行加锁的代码段。二、ReentrantLock......
  • IOS block学习笔记
    天天看别人的block,各种羡慕嫉妒恨。狠下心来自己也玩玩block,看看这水深不深。Block声明格式:  int(^personBlock)(int,int)Block定义格式}  例:^int(intnum1,intnum2){returnnum1+num2;}Block还有另外一种不同的定义方法。以^符号起始,后面跟随着参数,这......
  • 使用Btrace查看某个线程池活跃线程大小
    某一天想查看某个应用里的hsf活跃线程数(工作线程)。第一个想到的jstack,根据jstack打出的日志分析。典型日志: 1."HSFBizProcessor-thread-6"prio=10tid=0x00002aaabdffd800nid=0x201f2.java.lang.Thread.State:RUNNABLE3.atjava.lang.Class.getEnclosing......
  • 解决iframe嵌套不同域报错问题:SecurityError: Blocked a frame with origin
    Error:Failedtoresolveasynccomponentdefault:SecurityError:Blockedaframewithorigin"https://223.82.12.165:8282"fromaccessingacross-originframe. 原始需求,我提供一个免登陆的链接跳转到页面A。实现需求:用一个新的工程B实现权限校验,校验成功后通过loc......
  • 16.ReentrantLock全解读
    大家好,我是王有志,欢迎和我聊技术,聊漂泊在外的生活。快来加入我们的Java提桶跑路群:共同富裕的Java人。经历了AQS的前世和今生后,我们已经知道AQS是Java中提供同步状态原子管理,线程阻塞/唤醒,以及线程排队功能的同步器基础框架。那么我们今天就来学习通过AQS实现的ReentrantLock。......
  • mv: cannot move '/usr/local/lib/R/site-library/00LOCK-Biobase/00new/Biobase' to
     01、安装Biobase 包的时候遇到如下问题mv:cannotmove'/usr/local/lib/R/site-library/00LOCK-Biobase/00new/Biobase'to'/usr/local/lib/R/site-library/Biobase':Permissiondenied 02、解决方法在R终端执行如下命令:Sys.setenv(R_INSTALL_STAGED=FALSE)......