首页 > 其他分享 >多源异构数据源融合怎么做!一文解读(1)

多源异构数据源融合怎么做!一文解读(1)

时间:2024-11-12 17:30:51浏览次数:1  
标签:异构 数据 数据源 配置 组件 多源

随着数字化、网络化、智能化的时代发展,企业所面临的数据来源越来越广泛和复杂,包括关系型数据库、非关系型数据库、API接口、传感器数据、社交媒体等。这些数据源产生的数据具有不同的格式、结构和语义,这是多源异构数据源的特点也是数据融合的巨大难点。

 

一、什么是多源异构数据源

多源异构数据源是指来自不同来源、不同格式、不同结构、不同语义描述的数据集合。这些数据源可以是各种类型的数据,如关系型数据库、非关系型数据库、文件系统、API接口、传感器数据、社交媒体等。这些数据源具有不同的数据格式、数据类型和语义描述,因此需要进行特殊的技术处理和整合,才能实现数据的统一管理和分析。简单来说,多源异构数据源就是由多种不同类型、不同结构的数据来源组成的数据集合。

 

二、多源异构数据源的种类

多源异构数据的种类繁多,特点各异。下面介绍一下多源异构数据的一些常见种类:

1. 数据库数据

如 MySQL、PostgreSQL、Oracle 等,以表格形式存储结构化数据。还有 MongoDB、Cassandra 等,以文档、键值对、列族或图形形式存储半结构化或非结构化数据。

2. 文件数据

如 CSV、TXT 这样的文本文件,通常存储结构化或半结构化数据。层次结构的数据格式,适用于存储和交换复杂数据的XML文件。还有JSON 文件这种轻量级的数据交换格式,常用于 Web 应用和 API。

3. 多媒体数据

图像:JPEG、PNG 等格式的静态图像数据,通常用于视觉识别和分析。

音频:音频文件(如 MP3、WAV),可用于语音识别、音乐分析等。

视频:视频文件(如 MP4、AVI),可用于视频监控、内容分析等。

4. 社交媒体数据

社交网络:来自社交平台的帖子、评论、点赞等信息,具有非结构化特征。

5. 爬虫数据

Web 数据:通过网络爬虫技术收集的网站数据,通常是不规则、动态的网页内容。

6. 传感器和物联网数据

传感器数据:从 IoT 设备收集的实时数据,包含多种格式,例如温度、湿度等。

日志数据:来自设备、服务器和应用程序的日志文件,通常用于监控和分析。

7. 企业业务数据

CRM 数据:客户关系管理系统中的客户信息、销售记录等。

ERP 数据:企业资源规划系统中的财务、库存、供应链等数据。

8. 公开数据

开放数据集:政府机构、科研机构等发布的公共数据集,通常为结构化或半结构化。

数据共享平台的数据:一些平台上共享的数据集,涵盖各种领域。

9. 实时数据流

流式数据:实时传输的数据流,例如金融市场数据、在线交易数据等,具有高频更新的特性。

 

三、多源异构数据源融合

对于多源异构数据源融合的处理通常涉及到数据清洗、转换和整合等多个环节,以应对不同源头数据的格式、结构、语义等方面的差异,最后将其同步到数据库中。

这些步骤看起来并不复杂,但由于多源异构数据在格式、结构、语义等方面的差异,导致处理起来相当麻烦。所以使用数据整合和ETL(Extract, Transform, Load)工具处理成了主流选择。

 

四、使用ETLCloud进行多源数据融合

1.数据源选择

选择需要同步的数据源种类,这里我们使用文本文件,mysql数据表和api返回数据作为数据源来演示。

 

2.数据转换和同步

具体流程如下,使用文本文件读取组件,Restful API输入和库表输入组件,完成数据源读取,使用多流union组件合并数据,网关组件控制分支的并行执行,数据清洗转换组件对数据进行处理,最后通过库表输出同步到目标库中。

 

文本文件读取组件配置:

选择要读取的文本文件

选择文件内容的解析方式。

Restful API输入组件配置:

这里主要配置基本属性和输出字段,其他配置可以根据自己的api要求处理。这里没有演示出来的其他配置均为默认配置。

基本配置:主要配置调用的api url以及返回的数据行所在字段和数据格式。

 

 

输出字段配置:选择需要从api中输出的字段。

 

库表输入组件配置:

基本属性:

配置数据源和需要读取的表book

Sql语句配置,从book表中读取70001到80001之间的数据。

输入字段配置:

 

多流union合并组件配置:

基本属性,选择三个数据源所在节点

合并字段:

数据清洗转换组件配置:

基本属性:

清洗规则:

选择数据字段id,通过绑定规则对数据进行清洗转换。这对bookmoney,createtime字段分辨绑定了金额转换和时间转换规则。

过滤条件:

将bookmoney大于100的数据过滤出来,对这部分的数据进行清洗转换,其他的数据不做处理,依旧输出。

库表输出组件配置:

选择需要同步的目标表和表所在的数据源

选择输出方式,选择合并后批量。

3.流程运行结果

 

结语

多源异构数据源的融合是一个错综复杂的任务,需要系统性的方法和技术。而ETLCloud通过可视化的,明晰的方式,简化了数据清洗、整合、转换和管理流程,有效实现多源异构数据的整合,为更深层次的数据分析和应用提供有力支持。是多源异构数据融合工具的不二选择。

标签:异构,数据,数据源,配置,组件,多源
From: https://www.cnblogs.com/restcloud/p/18542328

相关文章

  • 若依框架多源数据库达梦应用适配问题处理记录-无效的模式名
    最近项目中有用户反馈应用连接数据库执行sql报无效的模式名,而在达梦客户端可以正常查询 首先怀疑的是应用连接串配置有错误,连接串配置如下: 根据查询,SZSJTGK模式不属于YSZWDT_YWYY用户将连接串模式名去掉之后还是同样问题,模式名大小写,驱动这些方面排除之后还是同样报错。......
  • 数据源及分层开发
    数据源及分层开发文章目录数据源及分层开发1.使用Tomcat数据源1.1连接池工作原理1.2Tomcat配置数据源步骤2.使用JavaBean传递数据3.JSP动作标签jsp:useBeanjsp:include%@include%4.分层开发4.1传统的MVC架构4.2后端三层架构如何来做系统分层确定层次定义接口遵循设计......
  • 双数据源混排
    importorg.apache.commons.collections4.CollectionUtils;importorg.apache.commons.lang3.tuple.Pair;importjava.util.ArrayList;importjava.util.Collections;importjava.util.Comparator;importjava.util.List;importjava.util.function.Function;/***......
  • Spring Boot 多数据源配置实战指南:从入门到精通
    引言在现代企业级应用开发中,往往需要同时访问多个数据库来满足不同的业务需求。SpringBoot作为一个快速开发的框架,提供了非常便捷的方式来配置和管理多数据源。本文将详细介绍如何在SpringBoot项目中配置多数据源,并通过实际代码示例展示其应用场景。一、为什么要配置多......
  • 如何在DataGrip上使用hive的数据源编写Spark代码
    Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。Spark作为一个计算平台并不是作为一个数据库不像hive以及mysql一样可以直接远程连接DataGrip使用,本篇就展示如何使用DataGrip使用hive作为数据源编写Spark代码查询hive数据库首先确保你的hive以及Spa......
  • 实时数仓及olap可视化构建(基于mysql,将maxwell改成seatunnel可以快速达成异构数据源实
    1.OLAP可视化实现(需要提前整合版本)Linux121Linux122Linux123jupyter✔spark✔✔✔python3+SuperSet3.0✔hive✔ClinckHouse✔Kafka✔✔✔Phoenix✔DataX✔maxwell✔Hadoop✔✔✔MySQL✔......
  • @DS注解方式springboot多数据源配置及失效场景解决
    1.使用教程导入依赖<!--多数据源--> <dependency> <groupId>com.baomidou</groupId> <artifactId>dynamic-datasource-spring-boot-starter</artifactId> <version>3.5.0</version> </dependency>123456配置数据源......
  • 多核异构模式下有管理的共享内存设计方法
    随着嵌入式系统、高性能计算和物联网技术的飞速发展,多核异构处理器已经成为当前计算平台的重要组成部分。多核异构处理器通过集成多种类型的处理器核心(如高性能CPU核心、GPU核心、NPU核心等),能够同时满足高性能计算和节能降耗的需求。然而,多核异构处理器的设计也带来了新的挑战,尤其......
  • 以外部表 (External Table) 的形式,接入其他数据源
    外部表|StarRockshttps://docs.starrocks.io/zh/docs/data_source/External_table/外部表StarRocks支持以外部表(ExternalTable)的形式,接入其他数据源。外部表指的是保存在其他数据源中的数据表,而StartRocks只保存表对应的元数据,并直接向外部表所在数据源发起查询。目......
  • SpringBoot3.0整合Mybatis-plus实现多数据源(重构类方式)
    背景前段时间在做一个数据中台的项目,系统用到了不同数据库中的数据。自己又不想手写JDBC连接,既然我有这个需求,那功能应该有人实现了,于是开始了网上搜了,搜索后发现基本都是讲读写分离、主备切换的,后面也查略了Mybatis-plus的官网,里面有这个功能,但好像是我组件的版本之间不兼容,导致......