首页 > 其他分享 >一文读懂分布式追踪的历史发展点滴

一文读懂分布式追踪的历史发展点滴

时间:2023-09-26 10:04:37浏览次数:45  
标签:请求 开发人员 应用程序 读懂 分布式系统 分布式 点滴 追踪

【摘要】本文介绍了可观测生态领域相关的技术——Distributed Tracing(分布式追踪)

【作者】李杰,专注于Java虚拟机技术、云原生技术领域的探索与研究。

什么是 “Distributed Tracing - 分布式追踪” ?

Distributed Tracing ( 分布式追踪 )是一种用于监测和分析分布式应用程序的技术和方法。它旨在追踪和记录应用程序中的请求和操作,从而提供对应用程序的全局视图和性能分析。

在分布式系统中,应用程序通常由多个微服务或组件组成,这些组件可能分布在不同的计算机、容器或云环境中。这种分布式环境使得监测和调试应用程序变得更加困难,因为单个请求可能会在多个组件之间传递,并涉及多个网络调用。

从本质上来讲,分布式追踪的核心思想是在整个应用程序的各个组件之间创建一条可追踪的路径。当一个请求进入系统时,它被赋予一个唯一的标识符(例如Trace ID),然后随着请求在不同组件之间传递,这个标识符会随之传递。每个组件在处理请求时都会生成相关的追踪数据,例如开始时间、结束时间、执行时间、调用的组件等。

一文读懂分布式追踪的历史发展点滴_ci

这些追踪数据被收集和汇总,通常存储在专门的分布式追踪系统中。开发人员可以使用这些数据来分析应用程序的性能瓶颈、调用链路和错误。通过可视化界面或查询语言,他们可以查看整个请求的路径和时间线,并识别潜在的性能问题和故障原因。

通常来讲,在最为基本的层面上,追踪解决方案从软件可观测性开始,通过从外部输出推断系统的内部状态。然而,由于这是一个相对不精确的过程,为了更准确地读取和记录各个组件的情况,我们希望引入遥测技术来捕获和测量数据。一旦系统具备遥测功能,我们就可以开始通过分布式追踪来观测系统级别发生的情况。

在云原生计算中,我们通常使用分布式系统和微服务架构,因此分布式追踪成为日常调试和监控的重要组成部分。它可以帮助我们理解请求是如何在多个服务之间流动的,并提供关于性能、错误和依赖关系的有用信息。通过分布式追踪,我们可以更好地理解系统中的瓶颈、故障和性能问题,并采取适当的行动来改进和优化我们的应用程序。

因此,分布式追踪在软件开发和运维中具有重要意义,它提供了对分布式系统中请求流程和组件交互的全局视图,帮助我们诊断问题、监控性能并改进系统的可靠性。

“Distributed Tracing - 分布式追踪” 的历史发展脉络

Distributed Tracing ( 分布式追踪 ) 的发展历史可以追溯到分布式系统和微服务架构的出现。下面是分布式追踪的一些关键里程碑和发展阶段,具体可参考如下:

一文读懂分布式追踪的历史发展点滴_ci_02

1、Google Dapper

Google 于 2003 年发布了一篇题为《Dapper,a Large-Scale Distributed Systems Tracing Infrastructure》的论文,这标志着分布式追踪的重要里程碑。这篇论文详细介绍了 Google 内部使用的分布式追踪系统 Dapper,该系统的设计和实现为后来的分布式追踪技术奠定了基础。

在此篇论文中,Google 首次提出了分布式追踪的概念,并探索了关键的技术和方法。其中包括请求追踪,即追踪一个请求在分布式系统中的整个路径和生命周期。通过跨服务追踪,Dapper 能够追踪一个请求在不同服务之间的传递和处理过程,从而提供全局的视图和上下文。为了应对大规模系统中的性能和存储压力,Dapper 引入了采样技术,仅记录部分请求的追踪数据,而非全部。此外,Dapper 还提供了可视化工具,使开发人员能够直观地查看和分析追踪数据,以诊断和解决问题。

这篇论文的发表对于分布式系统的可观察性和调试技术产生了深远的影响。它启发了后续的研究和工具开发,促进了分布式追踪技术的进一步发展和应用。许多开源项目和商业工具都受到 Dapper 的启发,并致力于提供更强大、灵活和易用的分布式追踪解决方案。因此,Dapper 论文标志着分布式追踪领域的开端,为我们理解和管理复杂的分布式系统提供了重要的方法和工具。

2、Twitter Zipkin

Twitter 的 Zipkin 项目受到了 Google Dapper 论文的启发,并在其基础上进行了扩展和改进。Zipkin 提供了一种简单而强大的方式来收集、存储和可视化分布式追踪数据。通过引入 Zipkin,开发人员可以更轻松地实施分布式追踪,从而获得对系统中请求流程和服务交互的全局视图。

Zipkin 采用了一些与 Google Dapper 类似的思想和技术,例如请求追踪和跨服务追踪。它可以追踪请求在分布式系统中的流动路径,并记录每个服务的处理时间和相关信息。这使得开发人员能够快速识别和排查潜在的性能瓶颈和故障点。

除了数据收集和存储功能,Zipkin 还提供了直观的可视化界面,使开发人员能够直观地查看和分析分布式追踪数据。这些可视化工具可以帮助开发人员理解系统中的请求流程,识别慢速请求、异常情况和服务之间的依赖关系。

3、Uber Jaeger

在 Zipkin 发布三年后的 2015 年,Uber 宣布开源了 Jaeger,这是一个专门用于监控、分析和排除微服务故障的分布式追踪系统。

Jaeger 项目的推出为分布式追踪技术带来了新的突破和创新。它在基于 Zipkin 的思想和经验的基础上进行了进一步的改进和优化。Jaeger 提供了更高级别的功能和性能,以适应大规模微服务架构的需求。

随着其开源项目的成功,Jaeger 于 2018 年成为云原生计算基金会(CNCF)的第 12 个托管项目。Jaeger 的加入进一步加强了分布式追踪技术在云原生生态系统中的地位,并得到了更广泛的社区支持和贡献。

由于其持续的发展和社区的努力,Jaeger 于 2019 年晋升为 CNCF 的毕业项目级别,这是 CNCF 下最高的可用级别。这表明 Jaeger 已经成为一个成熟而可靠的分布式追踪系统,被广泛认可和采用。

4、OpenTracing

在 2016 年,CNCF(Cloud Native Computing Foundation)推出了 OpenTracing,这是一个旨在推动分布式追踪领域发展的开放标准。OpenTracing 的目标是提供一套厂商中立的 API 和规范,以便在应用程序中轻松集成各种分布式追踪系统。

OpenTracing 的推出填补了分布式追踪领域的一个重要空白。在此之前,不同的追踪系统使用不同的 API 和数据格式,使得在不同系统之间切换和集成变得复杂困难。OpenTracing 的出现为开发人员提供了一种通用的编程接口,使得他们可以方便地在不同的追踪系统之间切换和集成,而无需修改现有的代码。

通过 OpenTracing,开发人员可以使用统一的 API 来定义和记录跨多个服务的请求和操作。这些API可以轻松地插入到应用程序的代码中,以收集关键的追踪信息。这些信息包括请求的流经路径、服务之间的依赖关系以及请求处理的时间等。

5、OpenCensus

除了 OpenTracing,Google 还推出了另一个项目名为 OpenCensus。OpenCensus 是一组适用于多种编程语言的库,旨在帮助开发人员收集应用程序的指标和分布式追踪数据,并实时传输到他们选择的后端系统。这个项目的目标是提供一种简单而强大的方式来监控和诊断应用程序的运行状况。

通过 OpenCensus,开发人员可以获得对应用程序的全面观察,并获得有关其性能、可用性和可靠性的关键洞察。收集和分析这些数据可以帮助开发人员优化应用程序的性能,提高用户体验,并及时发现和解决潜在的问题。

6、OpenTelemetry

在 2020 年,CNCF 支持了一个重要的项目,即 OpenTelemetry。OpenTelemetry 的目标是将 OpenTracing 和 OpenCensus 项目合并,成为下一代分布式追踪和观测标准。它提供了一套全面的工具、库和规范,用于收集、传输和分析应用程序的追踪数据和度量指标。

OpenTelemetry 的出现是为了解决分布式追踪和应用程序观测领域的挑战。它整合了 OpenTracing 和 OpenCensus 的最佳实践和思想,并提供了一个统一的解决方案。通过 OpenTelemetry,开发人员可以方便地收集应用程序的追踪数据和度量指标,无论是在单个服务内部还是跨多个服务之间。

OpenTelemetry 提供了一系列的 API 和 SDK,支持多种编程语言和平台。开发人员可以使用这些工具将追踪和度量的收集嵌入到应用程序代码中。这些工具会自动收集关键的数据,例如请求处理时间、资源利用率和错误率等。同时,OpenTelemetry 还支持分布式追踪,能够追踪请求在整个分布式系统中的流经路径和服务之间的调用关系。

OpenTelemetry 的设计具有灵活性和可扩展性。它支持与多个后端系统集成,例如 Jaeger、Zipkin、Prometheus 和 Google Cloud Monitoring 等。开发人员可以根据自己的需求选择适合的后端,并将收集到的数据实时传输到这些后端系统中进行分析和可视化。这使得开发人员能够获得对应用程序的全面观察,并及时识别和解决潜在的性能问题和故障。

通过 OpenTelemetry,开发人员可以更加方便地实现应用程序的监控和观测。它提供了一种统一的标准和工具,使得跨多个服务的追踪和度量变得更加一致和可靠。开发人员可以利用 OpenTelemetry 的功能来优化应用程序的性能、可用性和可靠性,提供更好的用户体验。

为什么需要 “Distributed Tracing -分布式追踪”?

分布式追踪是在分布式系统中追踪和监控请求的流经路径和服务之间的调用关系的过程。在现代的应用程序架构中,分布式系统变得越来越常见。这些系统通常由多个微服务组成,每个微服务负责处理特定的功能或业务逻辑。在这样的环境下,分布式追踪变得至关重要,原因如下:

1、故障排查和调试:在分布式系统中,当出现故障或性能问题时,很难确定问题的根源。分布式追踪可以帮助开发人员识别请求的流经路径,并记录每个服务的处理时间和性能指标。这样,开发人员可以快速定位问题所在,并进行故障排查和调试。

2、性能优化:分布式追踪可以提供对系统性能的全面可见性。通过收集和分析请求的流经路径和服务之间的调用关系,开发人员可以了解每个服务的性能瓶颈和热点。这使得他们能够有针对性地优化系统,提高整体性能和响应时间。

3、容量规划和资源管理:分布式追踪可以提供对资源利用率的洞察。通过监视请求的流经路径和服务的调用关系,开发人员可以了解每个服务的负载情况和资源消耗。这有助于进行容量规划和资源管理,确保系统具有足够的资源来满足用户需求。

4、跨服务的请求追踪:在分布式系统中,一个请求通常会涉及多个服务的协作。分布式追踪可以追踪请求在整个系统中的流经路径,并记录每个服务的处理情况。这有助于了解服务之间的依赖关系和调用关系,提供全局的请求视图,从而更好地理解系统的行为和性能。

5、监控和警报:分布式追踪可以与监控和警报系统集成,提供对系统运行状况的实时监控。通过收集和分析请求的追踪数据,可以生成关键的度量指标和报告,用于监控系统的健康状况和性能指标。同时,可以设置警报规则,及时发现并响应系统中的异常情况。

总之,分布式追踪在现代分布式系统中起着至关重要的作用。它帮助开发人员进行故障排查、性能优化、容量规划和资源管理。此外,它还提供了对跨服务请求的全局视图,以及与监控和警报系统的集成,实现对系统的实时监控和警报。通过分布式追踪,开发人员可以更好地理解和管理复杂的分布式系统,提供高性能、可靠和可伸缩的应用程序。

标签:请求,开发人员,应用程序,读懂,分布式系统,分布式,点滴,追踪
From: https://blog.51cto.com/u_15576159/7604650

相关文章

  • 实现基于分布式的LAMP架构,并将NFS实时同步到备份服务
    1.实现基于分布式的LAMP架构,并将NFS实时同步到备份服务1.1web服务器配置服务器环境准备需配置DNS解析,将域名解析成web服务器的地址服务名称IP地址web01-server10.0.0.8web02-server10.0.0.18mysql-server10.0.0.28nfs-server10.0.0.38backup-serv......
  • Hadoop是什么? Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并
    Hadoop是什么?Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并行处理任务,支持大规模数据存储和处理。Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce,它们使得Hadoop可以在廉价的硬件上并行地处理大量数据。Hadoop还包括很多相关的项目和子......
  • Hadoop集群搭建(完全分布式)
    一,Hadoop集群简介1.1Hadoop集群整体概述Hadoop集群包括两个集群:HDFS集群、YARN集群两个集群逻辑上分离、通常物理上在一起两个集群都是标准的主从架构集群Hadoop两种集群内容:逻辑上分离,物理上合并的理解:逻辑上分离:两个集群互相之间没有依赖、互不影响物理上合并:某些......
  • 帕金森病:你了解多少?一文带你读懂帕金森
    帕金森病是一种常见的神经系统疾病,主要影响中老年人。然而,由于人们对帕金森病的知识了解不足,往往错过了及时诊断和治疗的机会。在这篇文章中,我们将带你了解帕金森病的基本知识,包括其症状、原因、诊断和治疗方案,以帮助你更好地关注家人的健康。一、帕金森病的基本知识帕金森病是......
  • 华为云云耀云服务器L实例评测|伪分布式环境下部署hadoop2.10.1
    文章目录前言云耀云服务器L实例简介Hadoop简介一、配置环境购买云耀云服务器L实例查看云耀云服务器L实例状态重置密码查看弹性公网IP地址FinalShell连接服务器二、搭建Hadoop单机版本详细安装步骤如下:我们先开始配置java环境hadoop2.x接下来需要利用vim来操作core-site和hdfs-si......
  • 一文读懂Shell进程操作:编程新手必看
    什么是程序,什么又是进程程序是指令的集合,而进程则是程序执行的基本单元。为了让程序完成它的工作,必须让程序运行起来成为进程,进而利用处理器资源、内存资源,进行各种 I/O 操作,从而完成某项特定工作。从这个意思上说,程序是静态的,而进程则是动态的。进程有区别于程序的地方还有:进程......
  • golang 使用redis设置分布式锁 demo
    内容来自对chatgpt的咨询分布式锁是在多个节点上运行的应用程序中协调工作的一种常用方法,而Redis是实现分布式锁的流行选择。以下是使用Go语言和github.com/go-redis/redis库来设置Redis分布式锁的一个简单示例:首先,确保你已经安装了该库:goget-ugithub.com/go-redis/redi......
  • JMeter 分布式集群远程压测及搭建常见问题
    1、JMeter可以在以下场景下使用分布式远程压测:性能测试:JMeter可以模拟大量用户并发访问,进行性能测试。当需要模拟成千上万的用户请求时,单台机器可能无法承受如此大的负载,此时可以使用分布式远程压测来将测试负载分发到多台机器上,提高测试的效率和准确性。稳定性测试:在一段时间......
  • ClickHouse的分布式查询优化
    介绍ClickHouse是一个高性能的列式存储数据库,支持分布式部署。在分布式环境下,如何优化查询性能是一个非常重要的问题。本文将深入探讨ClickHouse的分布式查询优化。分布式查询的挑战在分布式环境下,查询性能的瓶颈通常是网络带宽和节点之间的通信延迟。因此,优化分布式查询的关键......
  • Hadoop是什么? Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并
    Hadoop是什么?Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并行处理任务,支持大规模数据存储和处理。Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce,它们使得Hadoop可以在廉价的硬件上并行地处理大量数据。Hadoop还包括很多相关的项目和子......