首页 > 其他分享 >如何通过链路追踪进行定时任务诊断

如何通过链路追踪进行定时任务诊断

时间:2022-11-30 11:34:04浏览次数:66  
标签:业务 任务 链路 定时 执行 追踪

作者:千习


背景简介


什么是定时任务


定时任务是业务应用系统中存在定时周期性运行的业务逻辑。由于其运行于后端进程中往往存在执行状态和执行链路的不可见性《常见定时任务技术方案》。


​https://developer.aliyun.com/article/882393​


什么是链路追踪


随着分布式微服务化架构在企业中大规模运用,业务运行的应用平台是一个由各个业务研发团队不同业务应用组合而成的庞杂系统工程,相互之间存在各种形式的访问交互。


如何通过链路追踪进行定时任务诊断_任务调度


面对上述如此复杂的系统结构,对于业务入口端应用而言所有的下游服务状态都是黑盒不可知的存在。相应的运维问题也随之而来:


  • 入口服务不可用时,如何快速定位具体是哪个服务节点不可用及原因?
  • 如何快速定位分析业务链路中性能瓶颈点?
  • 如何掌控业务链路完整执行过程? 


面对上述问题,从 Google 分布式链路追踪系统的 Dapper 论文开启了各类分布式链路追踪的实现,出现了很多相关系统,如:Zipkin、Skywalking、Pinpoint。所有这些其核心逻辑就是在一次业务请求开始时构建相应请求的链路上下文信息,并在服务调用过程中透传完善相应的链路节点信息,最终通过该请求 TraceId(本次请求的链路标识)和每个节点父子依赖关系构建出一个完整的调用链数据结构。


如何通过链路追踪进行定时任务诊断_链路_02


整个分布式全链路追踪平台各项主要分工:


  • 应用侧完成服务调用埋点,常见方式:手动调用 SDK 埋点、java agent 模式自动埋点
  • 服务之间通信交互,相应通信协议上需要添加 Trace 信息进行传递,保证在整个调用链中 Trace 信息共享
  • Trace 信息上报至全链路追踪平台进行存储展现 


基于上述几个主要环节,各个开源方案分别实现了各自在采集、传输、存储环节的不同数据结构。为实现链路追踪领域范围内数据结构统一,出现了 OpenTracing 和 OpenTelemetry 来定义相应的规范和协议。


为什么定时任务需要链路追踪


分析任务为什么执行失败


当业务不断发展,业务开发的定时任务也会越来越趋于复杂化,定时任务执行过程中会发展出如下各种形态:


  • 会调用其他业务方各类下游应用服务
  • 会调用其他中间件服务(如:redis、mq 等)
  • 会切分出 N 个子任务分发给不同机器进行分布式并行批处理,每个子任务处理又是一整套复杂组合 


当面对此类复杂定时任务场景下任务执行如果出现异常,相应的问题定位将变得很复杂。在完整的全链路追踪能力支持下,问题将能被快速定位处理。


如何通过链路追踪进行定时任务诊断_链路_03


分析任务为什么执行慢


一般场景下离线任务往往承担着大批量数据处理的业务场景,因而很多定时离线任务有运行耗时长的特征,往往在这些耗时长的任务上存在着巨大的性能优化空间,性能提升能直接优化基础资源使用效率并节省业务成本。


如何通过链路追踪进行定时任务诊断_云原生_04


在任务调度平台上我们可通任务执行超时报警,再结合任务执行链路追踪能力可有效地锁定业务处理的耗时瓶颈点供进一步业务性能优化作为参考。


全链路流量控制


在全链路追踪体系下,可以进行后续其他能力拓展:


  • 灰度发布:定时任务应用发布过程中的任务全链路灰度能力
  • 全链路压测:定时任务通过业务测试标签参与全链路压测
  • 流量隔离:定时任务调用下游服务,下游服务根据流量来源进行隔离处理 


如何通过链路追踪进行定时任务诊断_任务调度_05


定时任务链路追踪解决方案


开源解决方案


从开源定时任务平台看,目前常见开源方案都未支持任务执行链路可视化查询,对复杂任务或分片任务执行异常下的问题分析会比较困难。


另外在开源链路追踪平台,对应开源方案中部分采集端 agent 集成了定时任务框架执行入口埋点采集,但该模式下与任务调度平台侧较为割裂,从负责定时任务运维的视角出发想具体锁定某一次任务执行链路,需要通过日志或根据执行时间检索匹配相应的执行记录,当链路追踪平台上数据繁多想快速唯一锁定目标链路存在很多不便。


如何通过链路追踪进行定时任务诊断_阿里云_06


阿里解决方案


阿里分布式任务调度平台 SchedulerX 提供了一站式的链路追踪解决方案,可以将任务执行信息与链路追踪 Trace 信息绑定,用户可以很方便的从任务调度侧,查看某个任务、某次执行、某个分片的完整调用链。

如何通过链路追踪进行定时任务诊断_阿里云_07


阿里 SchedulerX 方案优势:


  • 精准定位任务执行 Trace 信息:常见链路追踪平台只负责任务执行的时候生成 traceId,不提供和具体任务的绑定关系,想要从成千上万的 traceId 中分析某个任务的调用链变得非常复杂;SchedulerX 无论是单机任务还是分布式任务的某个分片,每一次调度都能快速定位到调用链。 


  • 调度侧支持控制采样率:手动运行一次支持必采样、动态配置采样率。 


  • 免运维低成本:通过 EDAS 部署的 Java 业务应用天然支持定时任务 Trace 能力,无需自建链路追踪服务端平台和 agent 采集,降低业务成本,并且可以从任务调度侧一键跳转到调用链。 


定时任务链路追踪客户案例


某电商业务定位任务执行慢


用户案例:目前电商业务场景下都基于微服务架构体系,定时任务运行涉及的应用较多且链路较深,用户对某个任务运行慢时,希望能快速定位哪个业务应用方哪个业务功能是执行链路瓶颈点。


如何通过链路追踪进行定时任务诊断_任务调度_08


以下将展示如何分析任务的执行耗时,任务触发执行后会调用多次下游业务应用服务以完成整个业务逻辑,整个任务执行耗时较长。


如何通过链路追踪进行定时任务诊断_云原生_09


如上图所示,常规情况下一次执行<5 秒,但最近两次次执行耗时>15s,通过任务配置超时报警可监测到该执行记录超过预期执行时间,对该执行记录的调用链路进入下一步分析。


如何通过链路追踪进行定时任务诊断_阿里云_10

如何通过链路追踪进行定时任务诊断_链路_11


如上图所示,通过链路追踪自动跳转获取完整调用链(同样自建平台者可拷贝 TraceId 查询锁定),从上图可分析获得执行耗时占比较高的业务应用和 IP,可锁定在下游业务应用 ServiceApplication 的保存用户信息服务出现明显耗时。


某金融账户批处理定位执行异常


用户案例:某金融机构对老业务系统升级,需将所有客户账户信息进行定期批量迁移升级处理至新系统,每天会从老系统中加载一批次账户信息在业务集群中分发处理,完成每个账户信息升级迁移;当某个账户出现异常时,需要能快速定位执行异常的位置和原因。


通过 SchedulerX 的 MapReduce 模型进行分布式跑批,每个子任务对应一个客户账户信息业务处理,可展示每个子任务的执行列表,并提供链路追踪、重跑、日志查看等功能。


如何通过链路追踪进行定时任务诊断_定时任务_12


如上图所示,当整个任务执行出现异常失败,进入子任务列表锁定失败的子任务(如:账号 1000002 处理失败)。


如何通过链路追踪进行定时任务诊断_云原生_13


如上图所示,通过链路追踪自动调整至该子任务的完整执行调用链(自建平台可拷贝 TraceId 查询锁定),可快速定位业务处理异常位置所在的业务应用和IP。


如何通过链路追踪进行定时任务诊断_云原生_14


如上图所示,展开失败节点详情即可进一步获取失败内容信息(如案例:账号 1000002 在更新名称信息时字段超长),至此一个分布式批处理任务且存在多方服务调用的业务执行异常即可被快速定位。


某游戏业务分析 Http 执行链路


用户案例:某游戏业务系统中其内部采用了 C++、Go 等技术栈,SchedulerX 未提供相应语言 SDK 直接接入,用户则通过暴露 http 服务方式接入 SchedulerX 定时触发运行,并支持其实现 http 任务执行完整调用链查看。


以下展示一个 http 服务被定时调度后,其内部还会进行下游多个应用业务服务调用。


如何通过链路追踪进行定时任务诊断_任务调度_15

如何通过链路追踪进行定时任务诊断_定时任务_16


通过上述执行链路即可获得一个 http 定时任务在整个业务集群中完整的执行链路。如果单纯在链路追踪平台上来查询该 http 服务的调用链路时,往往会罗列一堆请求记录且无法快速区分是否是某个定时任务触发而来的。因此对比上述方式,对任务调度平台侧运维定时任务执行状况的场景下,SchedulerX 提供了更为清晰的任务执行链路追踪分析入口。


总结


分布式任务调度平台 SchedulerX 有效地将用于微服务场景下的可视化全链路追踪能力引入至定时任务处理场景,这将大大提升定时任务在运行时可观测能力,有效地帮助定时任务执行过程中异常、耗时、执行卡住等问题的定位分析。


相关链接


[1] 分布式任务调度 SchedulerX 接入全链路追踪

https://help.aliyun.com/document_detail/450856.html


[2] 企业级分布式应用服务 EDAS

https://help.aliyun.com/document_detail/450856.html


[3] 应用实时监控服务 ARMS

https://help.aliyun.com/product/34364.html

标签:业务,任务,链路,定时,执行,追踪
From: https://blog.51cto.com/u_13778063/5897962

相关文章

  • Linux如何查看定时任务
    crontab命令常见于Unix和类Unix的操作系统之中,用于设置周期性被执行的指令。该命令从标准输入设备读取指令,并将其存放于“crontab”文件中,以供之后读取和执行。Linux查看定......
  • 定时任务
    定时任务框架种类:While+Sleep :通过循环加休眠的方式定时执行Timer和TimerTask实现 :JDK自带的定时任务,可以实现简单的间隔执行任务(在指定时间点执行某一任务,也能定......
  • 定时清除linux内存buff/cache缓存
    1.创建脚本文件       vimclean.sh2.在文件中输入以下脚本#!/bin/bash#每两小时清除一次内存buff/cache缓存echo"开始清除缓存"sync;sync;sync#写......
  • 网页的几种定时跳转总结
    1、html网页跳转代码在网页头部<1head>…</head>之间插入以下代码<metahttp-equiv="refresh"content="0.1;url=https://www.cnblogs.com/">其中:content="0.1为打开该页......
  • Asp.Net Core&Jaeger实现链路追踪
    前言随着应用愈发复杂,请求的链路也愈发复杂,微服务化下,更是使得不同的服务分布在不同的机器,地域,语言也不尽相同。因此需要借助工具帮助分析,跟踪,定位请求中出现的若干问题,以......
  • 程序员面试干货:漫谈计算机网络:数据链路层 ----- 数据链路路在何方? --从点对点数据传
    面试答不上?计网很枯燥?听说你学习计网每次记了都会忘?不妨抽时间和我一起多学学它......
  • 全链路压测效能10倍提升的压测工具实践笔记【开源】【原创】
    BSF全链路自动化测试工具(autotest),可批量导入样本,自动录制样本,自动样本清洗,自动化压测,自动输出压测报告,让开发和压测人员性能测试的效能提升10倍!!!背......
  • Spring Scheduled 三种定时方式
    SpringSchedule配置时间的三种方式fixRate:间隔时间,会根据首次执行时间预先安排固定的时间,错过立即执行fixDelay:间隔时间,上次结束时间后多少间隔后执行cron:指定......
  • 0108-Go-定时器
    环境Time2022-08-24Go1.19前言说明参考:https://gobyexample.com/tickers目标使用Go语言的定时器。示例packagemainimport("fmt""time")fu......
  • django 定时任务 Error: no such table: django_apscheduler_djangojob
    使用django的定时任务一般出现各种问题例如找不到这个注册表或者urls不存在等etc....版本不兼容我的版本django2.2.8django_apscheduler==0.2.12APScheduler~......