canal全量同步到ES

时间：2022-10-10 10:56:04浏览次数：90

参考文档：https://blog.csdn.net/zlt2000/article/details/115291950

一、ETL接口

adapter 的 ETL 接口为：/etl/{type}/{task}

默认web端口为 8081
type 为类型(hbase/es7/rdb)
task 为任务名对应配置文件名，如sys_user.yml

curl -X POST http://127.0.0.1:8081/etl/es7/sys_user.yml

二、同步错误

示例1

当同步的数据量比较大时，执行一段时间后会出现上图的错误

原因分析

查看 canal 源码得知当同步的数据量大于1w时，会分批进行同步，每批1w条记录，并使用多线程来并行执行任务，而 adapter 默认的连接池为3，当线程获取数据库连接等待超过1分钟就会抛出该异常。

解决方式

修改 adapter 的 conf/application.yml 文件中的 srcDataSources 配置项，增加 maxActive 配置数据库的最大连接数为当前服务器cpu的可用线程数

cpu线程数可以下命令查看

grep 'processor' /proc/cpuinfo | sort -u | wc -l

二、es连接超时

原因分析

由于 adapter 的表映射配置文件中的 commitBatch 提交批大小设置过大导致(6000)

解决方式

修改 adapter 的 conf/es7/xxx.yml 映射文件中的 commitBatch 配置项为3000

三、同步慢，丢数据问题

三千万的数据量用时3.5小时左右

原因分析

由于当数据量大于1w时 canal 会对数据进行分批同步，每批1w条通过分页查询实现；所以当数据量较大时会出现深分页的情况导致查询非常慢。

解决方式

预先使用ID、时间或者业务字段等进行数据分批后再进行同步，减少每次同步的数据量。

案例
使用ID进行数据分批，适合增长类型的ID，如自增ID、雪花ID等；

查出最小ID、最大ID 与总数据量
根据每批数据量大小计算每批的 ID区间

计算过程：

最小ID = 1333224842416979257
最大ID = 1341698897306914816
总数据量 = 3kw
每次同步量 = 300w

使用分批的ID值进行同步

修改sql映射配置，的 etlCondition 参数：

etlCondition: "where id >= {} and id < {}"

 etlCondition: "where a.topic_msg_id>={} and a.topic_msg_id<{}"

调用etl接口，并增加 params 参数，多个参数之间使用 ; 分割

curl localhost:8083/etl/es7/topic_analysis_msgl.yml -XPOST -d "params=1262193776;1262193777"   # 前面是最小id，最大id减去最小id为一次同步的量
curl localhost:8084/etl/es7/topic_analysis_msgl.yml -X POST -d "params=1773734832;1780338515"

标签：canal,es7,同步,yml,id,全量,数据量,ID,ES
From： https://www.cnblogs.com/rtnb/p/16774861.html

ORA-01653 表 PDM91.RAWSERVLETREQUESTSTATS 无法通过1024 （在表空间 USERS 中）扩展
问题解决办法第一步：查询各表空间使用率SELECTtotal.tablespace_name,Round(total.MB,2)ASTotal_MB,Round(total.MB-free.MB,2)ASU......
CF963E Circles of Waiting（高斯消元，主元法）
CF963ECirclesofWaiting平面直角坐标系上有一个点，开始在\((0,0)\)，每秒钟这个点都会随机移动：如果它在\((x,y)\)，下一秒它去\(4\)个方向的概率为\(p_0,p_1,p_2,......
【云原生 | kubernetes】- 资源调度
调度是指将Pod放置到合适的Node上，然后对应Node上的Kubelet才能够运行这些pod。调度概览调度器通过kubernetes的监测（Watch）机制来发现集群中新创建且尚未被调......
在QTdesigner界面中使用按钮切换pyqtgraph画图
在QtDesigner中先建立UI，转成py文件，文件名为：plot_ui.py#-*-coding:utf-8-*-################################################################################......
vue css 背景图路径记得加波浪号 background-image: url("~@/assets/images/d.jpg")
vuecss背景图路径记得加波浪号background-image:url("~@/assets/images/d.jpg");为什么不加波浪号，图片显示不出来哟......
MyBatis之ResultMap的association和collection标签详解
一、前言MyBatis创建时的一个思想是：数据库不可能永远是你所想或所需的那个样子。我们希望每个数据库都具备良好的第三范式或BCNF范式，可惜它们并不都是那样。如果能......
Windows下Docker Desktop折腾
虽然自己有一些docker基础，但一堆东西很难在租的服务器里面部署。所以尝试在win下部署一下docker，也算是打破舒适圈了...提高一下自己的动手能力，感觉做云原生这块离不开docke......
如何使用界面控件DevExpress WinForms自带的UI模板？其实很简单
DevExpressWinForm拥有180+组件和UI库，能为WindowsForms平台创建具有影响力的业务解决方案。DevExpressWinForms能完美构建流畅、美观且易于使用的应用程序，无论是Office......
MatrixOne从入门到实践09——MO-Tester
MatrixOne从入门到实践——MO-Tester从0.5.0版本开始，MatrixOne引入了一个自动测试框架MO-Tester。MO-Tester测试框架，也可以称作为测试器，是通过SQL测试MatrixOne......
configure: error: HTSlib development files not found
001、问题configure:error:HTSlibdevelopmentfilesnotfound 002、解决方法，安装htslibwgethttps://github.com/samtools/htslib/releases/download/......

canal全量同步到ES

一、ETL接口

二、同步错误

原因分析

解决方式

二、es连接超时

原因分析

三、同步慢，丢数据问题

原因分析

解决方式

相关文章

赞助商

阅读排行