亚信安慧AntDB数据并行加载工具的实现（一）

时间：2024-01-02 12:04:36浏览次数：33

1.概述

数据加载速度是评判数据库性能的重要指标，能否提高数据加载速度，对文件数据进行并行解析，直接影响数据库运维管理效率。基于此，AntDB分布式数据库提供了两种数据加载方式：

一是类似于PostgreSQL的Copy命令，二是通过AntDB提供的并行加载工具。Copy命令是大家都比较熟悉的，但Copy命令导入数据需要通过CN节点，制约了数据的导入性能，无法实现并行、高效的加载。而AntDB并行加载工具可以绕过CN节点，直连数据节点，大大提高了加载的速率。

2.实现原理

2.1并行加载工具整体流程

并行加载工具有两种线程，一种是文本处理线程，另外一种是数据处理线程。文本处理线程只有1个，用来读取文件，并按行进行拆分，拆分后将行数据发送到数据处理线程。数据处理线程是多个，并行分析行数据，并加载到相应数据节点。

亚信安慧AntDB数据并行加载工具的实现（一）_antdb

图1 并行加载工具架构

2.2文本处理

并行加载工具支持Text和Csv两种格式的文件，下面简要说明下。Text和Csv文件都是以纯文本形式存储表格数据的，文件的每一行都是一个数据记录。每个记录由一个或多个字段组成，用分隔符分隔。文本处理线程的任务就是从文件中提取一行完整的记录，然后发送给数据处理线程。

文件中每一行数据以字符’\n’或者’\r\n’结尾。当是Csv文件是，由于Csv文件支持引用字符，当‘\n’、’\r\n’出现在引用字符中间时，作为普通字符处理，不能作为行结尾。Csv的引用字符为单字节字符，用户可以根据需要自己指定，未指定的话默认是双引号。

2.3行数据处理

数据处理线程用来分析文本处理线程发来的行数据，行数据由一个或多个字段组成，用分隔符分隔，分隔符可以指定。

数据处理线程从CN获取数据库及表相关信息，包括数据库编码方式，表分片方式，表的分片键等。

AntDB数据库中的表支持以下4中分布方式：

复制表
Hash分片表
取模分片表
随机分片表

并行加载工具会根据表的分布方式生成相应的导入策略。以下以不同的表分布方式说明并行加载工具的导入策略。

复制表在每个DN数据节点都保留完整的数据，复制表的数据导入时，需要将行数据插入到所有DN节点。

亚信安慧AntDB数据并行加载工具的实现（一）_加载_02

图2 复制表数据加载流程

Hash分片表将表数据分散到各DN节点，通过对分片键进行Hash，确定行数据属于哪个DN节点。并行加载工具的行处理线程，通过CN节点获取Hash分片表的分片健，对其进行Hash，然后将该行数据插入对应的DN节点，并行加载工具中的Hash分片的算法需要和CN节点的Hash算法一致。

亚信安慧AntDB数据并行加载工具的实现（一）_antdb数据库_03

图3 hash分配表数据加载流程

取模分片表也是将表数据分散到各DN节点，通过对分片键进行取模确定行数据所属DN节点，并行加载工具导入的处理策略与Hash分片表相同，只是将Hash计算换成了取模的方式。
随机分片表没有分片键，而是将数据根据随机分配到各DN节点。并行加载工具在每行数据导入前执行各随机函数，根据函数的返回值确定应该导入哪个节点。

亚信安慧AntDB数据并行加载工具的实现（一）_加载_04

图4 随机分片表数据加载流程

标签：并行,亚信,AntDB,线程,分片,数据,节点,安慧,加载
From： https://blog.51cto.com/u_15348398/9066922

亚信安慧AntDB数据并行加载工具的实现（二）
3.功能性说明本节对并行加载工具的部分支持的功能进行简要说明。1)支持表类型并行加载工具支持普通表、分区表。2)支持指定导入字段文件中并不是必须包含表中所有的字段，用户可以指定导入某些字段，但是指定的字段数要和文件中的字段数保持一致。3)支持导入部分记录并行加载工具支......
亚信安慧AntDB数据库引领数字时代通信创新
在数字经济与实体经济深度融合的时代，通信行业正迎来前所未有的新机遇。特别是在中国信通院的预测中，2027年5G专网市场规模预计将达到802亿元，呈现出显著的增长态势，年复合增长率高达42%。亚信安慧AntDB数据库一直致力于紧跟科技发展趋势，着眼于未来，不断进行技术创新和产品研发。在5G专......
亚信安慧AntDB数据库两项目分别入选2023“星河”标杆、优秀案例
近日，由中国信息通信研究院、中国通信标准化协会大数据技术标准推进委员会（CCSATC601）共同组织的第七届大数据“星河（Galaxy）”案例评选结果公示，亚信安慧AntDB数据库两项目入选，其中“基于AntDB的CRM系统全域数据库替换项目”获评标杆案例，“中国广电5G核心业务支撑系统数据库建设方案”......
亚信安慧AntDB数据库高可用解决方案助力西南某省高速清分结算系统成功升级
AntDB数据库技术总监北陌近期分享了一项引人注目的成功案例，该案例涉及西南某省高速领域，利用AntDB数据库作为基础架构成功升级了清分结算系统。这一系统升级对比传统架构，呈现出显著的性能提升，其中包括15%的性能改进、90%的业务处理速度提高、40倍以上的负载增加以及30倍以上的数据分......
亚信安慧AntDB数据库——通信运营商核心系统的全面演进
AntDB数据库源自通信运营商核心系统，经过15年的平稳运行和不断演进，成功跟随通信技术的升级步伐，逐步迈向5G时代，并且在这期间完成了8次大版本的迭代，为行业树立了技术领先的典范。其独特之处在于具备超融合架构，这一架构不仅支持结构化数据，还能有效管理非结构化数据，从而降低了系统维护的......
亚信安慧AntDB数据库引领行业数字化转型
自2019年6月起，中国广电成功获得5G牌照，凭借700MHz频谱资源，迅速展开5G网络建设，成功跻身第四大运营商行列。通过与中国移动的战略合作，已部署基站数量超过400万座，形成了强大的网络覆盖体系。亚信科技作为数智化全栈能力领先提供商，在广电5G业务发展中扮演了关键角色，全面负责BSS（业务支撑......
AntDB数据库新携手：六大优势引领企业数智化转型风潮
AntDB数据库与用友U8C携手共创辉煌，联合推出U8C+AntDB联合产品，为企业提供全方位解决方案，充分展现出六大优势，助力企业迎接新的发展时代。图：U8cloud+AntDB联合产品优势首先，该联合产品在助力企业新发展方面发挥着关键作用。通过整合AntDB数据库的先进技术和U8C的云ERP解决方案，企业可......
亚信安慧AntDB数据库：引领向量数据库标准化，助力大数据技术创新
近日，中国通信标准化协会大数据技术标准推进委员会携手中国信通院，以在线形式召开了《向量数据库技术要求》研讨会，这一举措旨在推动向量数据库技术的标准化发展。此次研讨会吸引了来自50多家企业的70多位专家参与，共同探讨并达成对标准框架的共识。其中，AntDB数据库的专家也受邀参与，为......
亚信安慧AntDB数据库：引领数据库标准与性能规范，推动行业创新
近日，全国信息技术标准化技术委员会数据库标准工作组在一场重要的研讨会上召开，旨在交流并总结2023年上半年数据库标准编制情况。我国自主研发的AntDB数据库，作为国内最早的国产数据库产品之一，受邀参与了此次标准的研讨，为推动我国数据库领域的标准体系建设和性能测试规范制定贡献了积......
亚信安慧AntDB数据库携手U8C共创未来
AntDB数据库生态负责人在近期举行的商业创新大会上引领着数字化时代的浪潮，推出了令业界瞩目的U8C+AntDB联合产品。这一创新性的合作将AntDB数据库与U8C云ERP产品紧密结合，为成长型企业提供了一套全栈、安全可靠的保障，为企业的数智化转型升级开启了崭新的篇章。图：AntDB数据库生态负责......