首页 > 其他分享 >数据丢失不用怕,火山引擎 DataLeap 提供排查解决方案

数据丢失不用怕,火山引擎 DataLeap 提供排查解决方案

时间:2023-03-31 14:47:11浏览次数:72  
标签:HDFS 快照 解决方案 Flink 排查 引擎 DataLeap 数据

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

 当一家公司的日均处理的数据流量在 PB 级别时,巨大的任务量和数据量会对消息队列(MQ)dump 的稳定性和准确定带来极大的挑战。

针对这一问题,火山引擎数智平台推出的大数据研发治理套件 DataLeap,可以为企业提供完整解决方案,帮助解决 MQ dump 在极端场景中遇到的数据丢失问题。

例如,当 HDFS(一种分布式文件系统)集群某个元数据节点由于硬件故障而宕机。那么在该元数据节点终止半小时后,运维工程师虽然可以通过手动运维操作将 HDFS 切到主 backup 节点,使得 HDFS 恢复服务。但故障恢复后, MQ dump 在故障期间可能有数据丢失,产出的数据与 MQ 中的数据不一致的情况。

此时,技术人员可以在收到数据不一致的反馈后,立即借助火山引擎 DataLeap 进行故障排查。

目前,火山引擎 DataLeap 基于开源 Flink,已经实现了流批一体的数据集成服务。通过 Flink Checkpoint 的功能,Flink 在数据流中注入 barriers 将数据拆分为一段一段的数据,在不终止数据流处理的前提下,让每个节点可以独立创建 Checkpoint 保存自己的快照。

每个 barrier 都有一个快照 ID ,在该快照 ID 之前的数据都会进入这个快照,而之后的数据会进入下一个快照。

 

在排查过程中,火山引擎 DataLeap 基于对 Flink 日志查看以及 HDFS 元数据查看,可以率先定位症结所在:删除操作的重复执行造成数据丢失。进一步解释就是,在故障期间,写入数据前的删除操作在 HDFS NameNode 上重复执行,将写入的数据删除造成最终数据的丢失。

溯源后,用户可以通过火山引擎 DataLeap 选择使用文件 State(当前的 Checkpoint id 和 task id)解决该问题,使用文件 State 前后处理流程对比如下图所示:

 

 

使用文件 State 后,在 Notify 阶段与 HDFS 交互的 metrics(打点监控系统)的平均处理时间减少了一半。

目前,企业均可以通过火山引擎 DataLeap 体验到上述 Flink Checkpoint 实践与优化方案,提升数据价值交付中的效率和质量。

 

点击跳转 大数据研发治理DataLeap 了解更多

标签:HDFS,快照,解决方案,Flink,排查,引擎,DataLeap,数据
From: https://www.cnblogs.com/bytedata/p/17276204.html

相关文章

  • jackson时间格式解决方案
    jackson时间格式解决方案你遇到下面这个异常吗??com.fasterxml.jackson.databind.exc.InvalidFormatException:Cannotdeserializevalueoftype`java.util.Date`fromString"2021-01-2322:02:17":notavalidrepresentation(error:FailedtoparseDatevalue'2021......
  • 关于Bitmap 导致的OOM 解决方案
    相机越来越好,相片也越来越大,而手机应用程序所分配的内存有限, 所以在读相片的时候,如果代码写得不好,经常导致OOM.信息如下:基本上要注意几个地方:1bitmap如果不用了,回收掉voidonDestroy(){super.onDestroy();if(bmp1!=null){bmp1.recyc......
  • WebUploader大文件上传解决方案支持分片断点上传
    ​ 前言文件上传是一个老生常谈的话题了,在文件相对比较小的情况下,可以直接把文件转化为字节流上传到服务器,但在文件比较大的情况下,用普通的方式进行上传,这可不是一个好的办法,毕竟很少有人会忍受,当文件上传到一半中断后,继续上传却只能重头开始上传,这种让人不爽的体验。那有没有......
  • 视频融合平台EasyCVR设备录像因时间导致播放异常问题的排查与解决
    EasyCVR视频融合平台可提供丰富的视频能力,支持视频直播、录像、回放、检索、云存储、告警上报、语音对讲、集群、电子地图、智能分析以及平台级联等。平台可支持多协议、多类型设备接入,包括国标GB28181、RTMP、RTSP/Onvif、海康SDK、大华SDK、海康Ehome等,近期我们又拓展了更多SDK......
  • javascript大文件上传解决方案支持分片断点上传
    ​ 这里只写后端的代码,基本的思想就是,前端将文件分片,然后每次访问上传接口的时候,向后端传入参数:当前为第几块文件,和分片总数下面直接贴代码吧,一些难懂的我大部分都加上注释了:上传文件实体类:看得出来,实体类中已经有很多我们需要的功能了,还有实用的属性。如MD5秒传的信息。pub......
  • csharp大文件上传解决方案支持分片断点上传
    ​ 4GB以上超大文件上传和断点续传服务器的实现随着视频网站和大数据应用的普及,特别是高清视频和4K视频应用的到来,超大文件上传已经成为了日常的基础应用需求。但是在......
  • MySQL导入数据库1118错误解决方案[ERR] 1118 - Row size too large (> 8126). Changing
    MySQL导入数据库1118错误解决方案[ERR]1118-Rowsizetoolarge(>8126).ChangingsomecolumnstoTEXTorBLOB编辑sql文件,在开头设置一下innodb_strict_mode为0SE......
  • .net大文件上传解决方案支持分片断点上传
    ​ASP.NET上传文件用FileUpLoad就可以,但是对文件夹的操作却不能用FileUpLoad来实现。下面这个示例便是使用ASP.NET来实现上传文件夹并对文件夹进行压缩以及解压。ASP.NE......
  • 第135篇:npm模块全局安装后无法使用解决方案
    好家伙 npm模块全局安装后无法使用 估计是少配了环境变量1.使用命令:npmconfiggetprefix找到全局包的安装位置  2.随后我们右键"我的电脑"打开 "属......
  • 应用汇推国内首家信用卡应用内支付解决方案“微支付”
    随着智能手机用户的大量增长,用户对手机支付的方式,以及手机支付所能涉及的领域的认识都在改变。最早的时候,手机支付基本用于收费短信、铃声下载等项目,但随着购买应用增值......