首页 > 其他分享 >【分布式技术】一文讲透链路追踪

【分布式技术】一文讲透链路追踪

时间:2024-12-04 21:33:05浏览次数:10  
标签:请求 MDC 追踪 Dapper 链路 日志 讲透 SkyWalking 分布式

链路追踪详细讲解

概述

链路追踪(Trace)是一种用于追踪分布式应用系统中请求处理过程的技术。以下是关于链路追踪的详细介绍:

一、定义与核心思想

链路追踪可以记录请求经过的所有服务节点和处理时间,帮助开发者快速定位和解决系统中的问题,如性能问题、错误和异常等。其核心思想是通过在系统中插入追踪代码,记录请求在各个组件之间的传递过程,从而形成一个完整的请求链路。

二、关键概念

  1. TraceID:唯一标识一个请求链路的标识符。
  2. Span:表示请求链路中的一个基本操作单元,例如一个函数调用、一个数据库查询等。
  3. Annotation:用于记录Span的相关信息,如操作的开始时间、结束时间、错误信息等。
  4. Context:用于在不同的组件之间传递链路信息。

三、实现方式

链路追踪技术的实现方式有多种,常见的包括:

  1. 代码侵入式:通过在应用程序的代码中插入追踪代码来实现链路追踪。这种方式需要对应用程序进行修改,但可以提供最详细的链路信息。
  2. 代理式:通过在应用程序和外部系统之间插入代理来实现链路追踪。代理可以捕获请求和响应,并将链路信息传递给追踪系统。这种方式不需要对应用程序进行修改,但可能会对性能产生一定的影响。
  3. 字节码增强式:通过在应用程序的字节码中插入追踪代码来实现链路追踪。这种方式同样不需要对应用程序进行修改,但需要对字节码进行处理,也可能对性能产生一定的影响。

四、应用场景

链路追踪在企业中的应用场景非常广泛,主要包括:

  1. 故障排查:当系统出现故障时,运维人员可以通过TraceID快速定位到问题所在的节点,查看详细的请求处理过程,从而迅速找到故障原因并加以解决。
  2. 性能优化:通过分析请求链路的耗时分布,可以发现系统中的性能瓶颈,针对性地进行优化,提升系统的整体响应速度。
  3. 用户体验提升:链路追踪可以帮助企业了解用户请求的完整处理过程,发现影响用户体验的环节,从而优化业务流程,提升用户满意度。
  4. 安全审计:追踪数据记录了每个请求的详细处理过程,可以作为安全审计的依据,帮助企业及时发现和处理潜在的安全风险。

五、常用工具

常见的开源链路追踪系统包括Zipkin、Jaeger、SkyWalking等,这些系统提供了一些常用的API和插件,方便开发人员在不同的语言和框架中接入和使用。

  1. Zipkin:一个开源的分布式跟踪系统,用于解决分布式系统中的性能问题。它可以帮助开发人员快速发现和解决服务之间的调用延迟、故障等问题。Zipkin主要由收集器、存储器、查询器和Web界面组成。
  2. Jaeger:另一款开源的分布式跟踪系统,旨在帮助开发人员和SRE(Site Reliability Engineer)解决微服务架构中的性能问题。Jaeger的工作原理是通过向应用程序添加跟踪数据来捕获请求调用链,主要由客户端、代理、存储器、查询器和Web界面组成。
  3. SkyWalking:一个分布式应用程序性能监测系统,支持跨多种编程语言和多种分布式系统的监测。SkyWalking采用了插件化的架构,可以根据需求选择性地启用不同的插件,以支持多种编程语言和分布式系统的监测。其架构主要由探针、收集器、存储器和Web UI组成。

六、发展趋势与挑战

随着技术的不断进步,链路追踪在未来将呈现智能化分析、标准化和统一化、云原生支持等发展趋势。然而,在实际应用中,链路追踪也面临数据量庞大、系统侵入性、多技术栈兼容性等挑战。为了应对这些挑战,需要采用高效的数据存储和分析方案、减少系统侵入性、选择兼容性强的追踪工具等策略。

综上所述,链路追踪是一种重要的分布式系统监控和故障诊断技术,在现代企业中具有广泛的应用价值。通过深入了解链路追踪的原理、实现方式以及应用场景,企业可以更好地利用这一技术来提升系统的稳定性和性能,优化用户体验,增强安全防护能力。

设计原型Dapper

Dapper是Google开发的一款分布式系统跟踪工具,旨在监控和分析分布式系统中的请求。以下是对Google Dapper的详细介绍:

一、基本概念与原理

Dapper的核心思想是将请求跟踪为一个分布式的请求树,其中包含了请求的每个环节和组件。它通过在请求路径中插入唯一的跟踪标识(trace ID)来标记每个请求,当请求流经系统中的各个组件时,这个标识会一直传递下去。每个组件都会记录自己的处理时间、延迟和请求状态,并将这些信息发送到中央存储系统中。中央存储系统会收集和汇总所有的跟踪数据,生成请求树,显示请求的整个生命周期。

二、主要功能

  1. 监控请求生命周期:Dapper能够记录请求从发起到完成的全过程,包括每个组件的处理时间、延迟和请求状态。
  2. 性能问题识别:通过生成的请求树,开发者可以轻松地找出性能问题、瓶颈和异常。
  3. 性能优化:Dapper提供的详细信息可以帮助开发者识别潜在的性能问题,并进行针对性的优化。
  4. 可视化展示:Dapper通常提供仪表盘等可视化工具,方便开发者直观地查看和分析请求数据。

三、使用步骤

  1. 部署Dapper收集器:收集器负责接收、存储和处理跟踪数据。
  2. 添加Dapper SDK:在需要监控的应用程序中添加Dapper的SDK,以便自动添加跟踪标识。
  3. 配置Dapper:根据实际需求配置Dapper的收集器、仪表盘等组件。
  4. 查看和分析数据:通过Dapper的仪表盘或其他可视化工具,查看和分析请求数据,识别性能问题和瓶颈。

四、系统特点

  1. 广泛可部署性:Dapper设计之初就考虑了广泛可部署性,能够监控尽可能多的Google服务。
  2. 全天候监控:Google的服务是全天候的,Dapper同样能够进行全天候的监控,确保不会错过任何关键性故障。
  3. 低开销:Dapper的监控过程对原系统的影响较小,开销较低,因此系统的开发人员更愿意接受这个监控系统。
  4. 应用透明性:Dapper的监控过程对应用程序开发人员来说是透明的,无需对底层细节进行调整即可正常工作。

五、应用场景

Dapper适用于各种需要监控和分析分布式系统中请求的场景,如互联网服务、云计算平台等。通过Dapper,开发者可以更好地理解系统的性能问题、瓶颈和延迟,从而进行针对性的优化和改进。

六、优势与挑战

优势

  1. Dapper提供了强大的分布式系统跟踪功能,能够帮助开发者更好地了解系统的性能状况。
  2. Dapper具有可视化展示功能,方便开发者直观地查看和分析请求数据。
  3. Dapper的监控过程对原系统的影响较小,开销较低。

挑战

  1. Dapper的部署和配置需要一定的技术能力和经验。
  2. 在处理大规模分布式系统时,Dapper可能会面临数据存储和处理方面的挑战。

综上所述,Dapper是Google开发的一款功能强大的分布式系统跟踪工具,具有广泛的应用场景和优势。然而,在使用过程中也需要注意其部署和配置等方面的挑战。

什么是MDC

MDC(Mapped Diagnostic Contexts)即映射诊断上下文,主要用于在日志链路跟踪时动态配置用户自定义的一些信息,如requestId、sessionId等。MDC可以看作是一个与当前线程绑定的哈希表,可以往其中添加键值对,MDC中包含的内容可以被同一线程中执行的代码所访问。以下是对自定义日志内容MDC的详细介绍:

一、MDC的基本用法

MDC的主要功能是在多线程条件下记录追踪日志,它支持Log4J和LogBack等日志框架。MDC提供了一个静态方法put,类似于Map的put方法,用于将键值对存储到MDC中。例如:

MDC.put("username", "test123");

这样,在当前线程的MDC中就添加了一个键值对(username, test123)。

二、在日志配置文件中使用MDC

为了在日志中输出MDC中的自定义内容,需要在日志配置文件中进行相应的配置。以Logback为例,可以在logback.xml文件中配置PatternLayout,并在pattern中使用%X{key}来输出MDC中对应key的值。例如:

<configuration>
    <appender name="CONSOLE" class="ch.qos.logback.core.ConsoleAppender">
        <layout class="ch.qos.logback.classic.PatternLayout">
            <pattern>%d{yyyy-MM-dd HH:mm:ss.SSS} [%X{requestId}] [%level] [%thread] [%class:%line] - %m%n</pattern>
        </layout>
    </appender>
    <root level="debug">
        <appender-ref ref="CONSOLE"/>
    </root>
</configuration>

在这个配置中,%X{requestId}用于输出MDC中名为requestId的值。

三、在多线程环境中使用MDC

在多线程环境中,子线程默认不会继承父线程的MDC内容。但是,可以通过一些方法使子线程能够访问父线程的MDC内容。例如,在创建子线程之前,可以先将父线程的MDC内容复制到一个地方,然后在子线程中重新设置MDC内容。Log4j2和Logback等日志框架都提供了相应的机制来实现这一点。

以Logback为例,可以使用MDC.getCopyOfContextMap()方法获取当前线程的MDC内容的副本,并在子线程中通过MDC.setContextMap()方法设置这个副本。这样,子线程就可以访问到父线程的MDC内容了。

四、MDC的清理

在使用MDC时,需要注意及时清理MDC中的内容,以避免内存泄漏等问题。通常可以在日志记录完成后,使用MDC.clear()方法清理MDC中的内容。此外,在异常处理代码中也应该注意清理MDC内容,以确保在出现异常时不会留下未清理的MDC内容。

五、MDC的应用场景

MDC在分布式系统、微服务架构等场景中有着广泛的应用。通过为每个请求生成一个唯一的requestId,并将其存储在MDC中,可以在整个请求处理过程中跟踪和记录这个requestId。当请求流经系统中的各个组件时,这个requestId会一直传递下去,并在日志中记录下来。这样,在出现故障或需要定位问题时,可以通过requestId快速找到相关的日志信息,从而方便地进行问题排查和定位。

综上所述,MDC是一种非常有用的日志记录工具,它可以帮助开发者在多线程和分布式系统中更好地跟踪和记录日志信息。通过合理使用MDC,可以提高日志的可读性和可维护性,为系统的开发和维护提供有力的支持。

logback结合zipkin实现

Logback与Zipkin的结合使用可以实现分布式系统中的日志追踪和调用链分析。以下是对Logback结合Zipkin的详细介绍:

一、背景与目的

在分布式系统中,服务之间的调用关系复杂,且日志数据分散在各个服务中。为了快速定位和分析问题,需要一种能够将各个服务的日志串联起来的方法。Zipkin是一个开源的分布式追踪系统,它可以帮助收集、查询和分析分布式系统中的追踪信息。而Logback是一个流行的日志框架,它提供了灵活的日志记录功能。通过结合Logback和Zipkin,可以在日志中记录追踪信息,从而实现跨服务的日志追踪和调用链分析。

二、配置Logback以支持Zipkin

  1. 引入依赖
    在项目的构建文件中(如Maven的pom.xml或Gradle的build.gradle),添加Logback和Zipkin相关的依赖。

  2. 配置Logback
    在Logback的配置文件(如logback.xml)中,设置日志的格式和输出目的地。为了支持Zipkin的追踪信息,需要在日志格式中添加traceId和spanId等字段。例如:

    <configuration>
        <appender name="FILE" class="ch.qos.logback.core.rolling.RollingFileAppender">
            <file>logs/app.log</file>
            <rollingPolicy class="ch.qos.logback.core.rolling.TimeBasedRollingPolicy">
                <fileNamePattern>logs/app-%d{yyyy-MM-dd}.%i.log</fileNamePattern>
                <maxHistory>30</maxHistory>
                <timeBasedFileNamingAndTriggeringPolicy class="ch.qos.logback.core.rolling.SizeAndTimeBasedFNATP">
                    <maxFileSize>10MB</maxFileSize>
                </timeBasedFileNamingAndTriggeringPolicy>
            </rollingPolicy>
            <encoder>
                <pattern>%d{yyyy-MM-dd HH:mm:ss.SSS} [%X{X-B3-TraceId:-},%X{X-B3-SpanId:-}] [%thread] %-5level %logger{36} - %msg%n</pattern>
            </encoder>
        </appender>
        <root level="info">
            <appender-ref ref="FILE" />
        </root>
    </configuration>
    

    在这个配置中,%X{X-B3-TraceId:-}%X{X-B3-SpanId:-}用于输出MDC(Mapped Diagnostic Context)中存储的traceId和spanId。这些字段通常由分布式追踪框架(如Spring Cloud Sleuth)自动设置。

  3. 集成Zipkin
    在分布式系统中,各个服务需要集成Zipkin客户端(如Spring Cloud Sleuth),以便在调用链中传递traceId和spanId等追踪信息。当服务进行RPC调用或发送消息时,这些追踪信息会自动附加到请求或消息中,并在接收方被解析和记录。

三、使用与验证

  1. 启动服务
    启动所有相关的服务,并确保它们已经正确集成了Zipkin客户端和Logback日志框架。

  2. 发起请求
    通过前端或API测试工具发起一个请求,该请求会经过多个服务并被处理。

  3. 查看日志
    检查各个服务的日志文件,验证日志中是否包含了traceId和spanId等追踪信息。这些信息应该能够串联起整个调用链。

  4. 查询Zipkin
    登录Zipkin的Web界面,输入traceId进行查询。Zipkin会显示该traceId对应的调用链信息,包括各个服务的调用顺序、请求和响应的时间戳等。

四、注意事项

  1. 确保兼容性
    在集成Logback和Zipkin时,需要确保所使用的日志框架和分布式追踪框架是兼容的。例如,Spring Cloud Sleuth与Logback和Zipkin都是兼容的。

  2. 配置MDC
    在使用MDC存储traceId和spanId等追踪信息时,需要确保这些信息在请求处理过程中被正确设置和传递。如果使用了Spring Cloud Sleuth等框架,这些工作通常会自动完成。

  3. 日志级别
    根据实际需求调整日志级别。在生产环境中,通常会将日志级别设置为INFO或WARNING,以减少日志量和存储成本。但在调试和排查问题时,可以将日志级别设置为DEBUG或TRACE以获取更详细的日志信息。

  4. 日志清理
    定期清理日志文件以避免磁盘空间不足的问题。可以使用日志滚动策略(如TimeBasedRollingPolicy)来自动清理过期的日志文件。

综上所述,通过结合Logback和Zipkin,可以实现分布式系统中的日志追踪和调用链分析。这有助于快速定位和分析问题,提高系统的稳定性和可靠性。

Springboot结合Skywalking

Spring Boot与SkyWalking的结合可以实现对分布式系统的追踪、监控和诊断,有助于提升系统的稳定性和可靠性。以下是Spring Boot结合SkyWalking的详细步骤:

一、准备工作

  1. 创建Spring Boot项目

    • 如果还没有Spring Boot项目,可以通过Spring Initializr或IDE(如IntelliJ IDEA、Eclipse)创建一个新的Spring Boot项目。
  2. 了解SkyWalking

    • SkyWalking是一个开源的、用于观测分布式系统(特别是微服务、云原生和容器化应用)的平台。
    • 它提供了对分布式系统的追踪、监控和诊断能力。

二、集成SkyWalking

  1. 添加SkyWalking依赖

    • 在Spring Boot项目的pom.xml文件中添加SkyWalking的依赖。
    • 例如,可以添加apm-toolkit-trace依赖,用于集成SkyWalking的追踪功能。
    <dependency>
        <groupId>org.apache.skywalking</groupId>
        <artifactId>apm-toolkit-trace</artifactId>
        <version>${skywalking.version}</version>
    </dependency>
    
    • 注意:${skywalking.version}需要替换为SkyWalking的实际版本号。
  2. 配置SkyWalking代理

    • 下载SkyWalking的代理程序(agent),并解压到本地。
    • 在代理程序的配置文件agent.config中配置SkyWalking的服务地址。
    • 例如,设置collector.backend_service为SkyWalking OAP(Observability Analysis Platform)服务的地址。
  3. 启动Spring Boot应用

    • 在启动Spring Boot应用时,通过-javaagent参数指定SkyWalking代理程序的路径。
    • 同时,可以通过-D参数设置一些SkyWalking相关的系统属性,如服务名称等。
    java -javaagent:/path/to/skywalking-agent.jar -Dskywalking.agent.service_name=your-service-name -jar your-springboot-app.jar
    
    • 注意:/path/to/skywalking-agent.jar需要替换为实际的SkyWalking代理程序路径,your-service-name需要替换为你的服务名称。
  4. 配置SkyWalking UI

    • SkyWalking UI用于展示监控数据,可以通过浏览器访问。
    • 在SkyWalking UI中,可以看到实时的服务性能数据、请求路径追踪等信息。

三、验证与调优

  1. 验证集成效果

    • 启动Spring Boot应用后,访问SkyWalking UI,查看是否能够正确展示监控数据。
    • 检查日志输出,确认是否包含SkyWalking的追踪信息。
  2. 调优与配置

    • 根据实际需求,调整SkyWalking的配置,如采样率、存储方式等。
    • 可以通过SkyWalking的配置文件(如application.yml)进行配置调整。

四、注意事项

  1. 版本兼容性

    • 确保Spring Boot和SkyWalking的版本兼容。
    • 在升级Spring Boot或SkyWalking时,注意查看官方文档或更新日志,以了解可能的兼容性问题。
  2. 性能影响

    • SkyWalking的追踪功能会对系统性能产生一定影响。
    • 在生产环境中,需要根据实际需求调整采样率等参数,以平衡性能与监控需求。
  3. 安全性

    • 确保SkyWalking UI的访问权限得到合理控制,避免敏感信息泄露。
    • 在配置SkyWalking时,注意保护敏感信息(如数据库密码等)的安全。

综上所述,Spring Boot与SkyWalking的结合可以实现对分布式系统的有效监控和诊断。通过合理配置和调优,可以在不影响系统性能的前提下,获得丰富的监控数据和诊断信息。

标签:请求,MDC,追踪,Dapper,链路,日志,讲透,SkyWalking,分布式
From: https://blog.csdn.net/wendao76/article/details/144181965

相关文章

  • 一文讲透SLAM导航及其应用场景
    什么是SLAM导航?SLAM导航的历史渊源SLAM(SimultaneousLocalizationandMapping)中文名为“即时定位与地图构建”,自1988年提出以来,经历了从理论研究到实际应用的快速发展。最初,SLAM导航主要用于军事领域,帮助无人机和机器人在复杂环境中执行任务。随着技术的成熟,SLAM导航逐渐进......
  • HarmonyOS Next 分布式加密协作应用案例剖析
    本文旨在深入探讨华为鸿蒙HarmonyOSNext系统(截止目前API12)在分布式加密协作应用中的应用,基于实际开发实践进行总结。主要作为技术分享与交流载体,难免错漏,欢迎各位同仁提出宝贵意见和问题,以便共同进步。本文为原创内容,任何形式的转载必须注明出处及原作者。第一章:应用场景与架......
  • 清华:LLM分布式安全优化框架
    ......
  • 基于JWT跨语言开发分布式业务系统的挑战与实践:多语言协作的最佳方案
    在现代分布式架构下,开发团队往往由来自不同技术栈和开发语言的工程师组成。如何有效地管理这些开发人员的协作,尤其是在实现跨语言的认证与授权机制时,成为了开发者面临的一个重大挑战。JSONWebToken(JWT)作为一种轻量级、跨语言的身份认证和授权标准,能够为分布式系统提供有效的......
  • 基于surging的木舟平台如何分布式接入设备
    一、概述上篇文章介绍了木舟通过基于木舟平台浅谈surging的热点KEY的解决方法,那么此篇文章将介绍基于surging的木舟平台如何分布式接入设备.     木舟(Kayak)是什么?      木舟(Kayak)是基于.NET6.0软件环境下的surging微服务引擎进行开发的,平台包含了微服......
  • 分布式数据库:从基础到实践
    ......
  • 如何搭建JMeter分布式集群环境来进行性能测试
    在性能测试中,当面对海量用户请求的压力测试时,单机模式的JMeter往往力不从心。如何通过分布式集群环境,充分发挥JMeter的性能测试能力?这正是许多测试工程师在面临高并发、海量数据时最关注的问题。那么,如何轻松搭建JMeter分布式集群环境,实现性能测试的最大化呢?你是否也曾为测试......
  • M31系列LoRa分布式IO模块功能简介
    M31系列LoRa分布式IO模块简介M31系列LoRa分布式IO主机模块是一款强大的无线远程控制与采集设备,该设备采用LoRa无线技术(内置了无线模块),可通过串口或远程LoRa组网设备发送ModbusRTU指令进行控制,可搭配E90-DTU(400SL30)型号无线数传电台,实现无线远程采集控制开关量模拟量......
  • Hadoop环境搭建(二)分布式
    Hadoop集群配置增加环境变量exportPATH=$PATH:/root/hadoop/bin:/root/hadoop/sbin修改workers配置vim${HADOOP_HOME}/etc/hadoop/workers#增加你的workers节点的名称hadoop2hadoop3修改core-site.xmlvim${HADOOP_HOME}/etc/hadoop/core-site.xml<configurat......
  • HarmonyOS Next 分布式开发实战
    本文旨在深入探讨华为鸿蒙HarmonyOSNext系统(截止目前API12)的分布式开发相关技术细节,基于实际开发实践进行总结。主要作为技术分享与交流载体,难免错漏,欢迎各位同仁提出宝贵意见和问题,以便共同进步。本文为原创内容,任何形式的转载必须注明出处及原作者。第一章:分布式概念......