首页 > 其他分享 >还不知道数据类岗位的相关技能和职责吗?涤生大数据告诉你(一)

还不知道数据类岗位的相关技能和职责吗?涤生大数据告诉你(一)

时间:2023-09-25 17:08:58浏览次数:36  
标签:数仓 工程师 数据仓库 涤生 开发 数据 ETL 技能


很多同学在求职中对数据类岗位傻傻分不清楚,投递简历的时候胡乱投递,本篇文章给大家讲讲数仓开发,etl开发,数据开发,数据治理工程师,BI工程师以及数据运维工程师这些数据类岗位的工作职责以及和数仓开发的区别。同时为了大家更加深入地了解各岗位的区别,也给大家讲解了一下这些岗位在日常工作当中的一些工作交集。

1.数仓开发工程师  

工作职责

数仓工程师是负责构建和维护数据仓库的专业人员。数据仓库是一个集成、一致且易于查询的数据存储,用于支持企业的业务分析和决策。数仓工程师的主要任务包括以下几个方面:

1. 数据整合和转换:数仓工程师负责从不同的数据源中提取数据,并将其整合到数据仓库中。他们需要处理数据的清洗、转换和加载,确保数据的一致性和准确性。 中提取数据,并将其整合到数据仓库中。

2. 数据建模和设计:数仓工程师需要设计和构建数据仓库的数据模型。他们使用维度建模技术,将业务数据组织成维度和事实表的结构,以支持灵活的查询和分析。

3. 数据质量和性能优化:数仓工程师需要监控和维护数据仓库的数据质量,并进行性能优化。他们会定期检查数据质量,处理数据异常和冲突,并对查询性能进行优化,以确保用户能够快速访问和分析数据。

4. 数据安全和权限管理:数仓工程师需要确保数据仓库的安全性和合规性。他们会实施访问控制和权限管理,确保只有授权的用户可以访问敏感数据。

5. 数据仓库的维护和升级:数仓工程师负责数据仓库的日常维护和升级。他们会监控数据仓库的运行状态,处理故障和问题,并在需要时进行升级和优化。

6. 数据类需求的承接开发:例如数据可视化和报表开发,通过将业务方的报表需求业务口径化后,梳理出指标计算口径,并完成对应模型的设计和开发,最后使用数据可视化工具,如Tableau、Power BI等,设计和开发直观清晰的数据可视化报表,帮助业务团队理解和利用数据。你需要将数据转化为可视化的形式,并提供易于理解和操作的报表和图表。 

总之,数仓工程师在数据领域中扮演着至关重要的角色,他们通过构建和维护数据仓库,为企业提供准确、一致和易于分析的数据,支持业务分析和决策。数仓工程师是整个数据仓库的第一负责人,除了偏向模型设计和开发的工作属性外,还需要负责整个数仓的任务运维保障和优化工作,当然还会作为数据治理的主力军参与数据治理体系建设中。

技能要求

对数仓工程师的岗位技能要求一般如下:

1. 数据库技术:熟悉关系型数据库(如MySQL、Oracle)和非关系型数据库(如MongoDB、Redis)的设计和优化,具备良好的SQL编程能力。

2. 大数据技术:熟悉Hadoop生态系统(如HDFS、MapReduce、Hive、Azkaban,datax,sqoop等)、Spark、Kafka,hbase,es等大数据处理和分析工具,能够进行大规模数据的存储、处理和分析。

3. 数据建模和ETL工具:具备数据建模和数据仓库设计的能力,熟悉常用的ETL工具的使用和配置。

4. 编程语言:熟练掌握至少一种编程语言,如Java、Python、Scala等,能够进行数据处理和分析的编程开发。

5. 数据质量和数据治理:了解数据质量管理和数据治理的概念和方法,能够评估和监控数据质量,并制定相应的数据治理规范和流程。

6. 数据可视化工具:熟悉数据可视化工具(如Tableau、Power BI、QlikView)的使用,能够设计和开发直观清晰的数据可视化报表。

此外,数仓开发的技术要求还可能根据具体业务需求和技术栈有所不同,例如对机器学习和人工智能的应用,对实时数据处理和流式计算的需求等。因此,具体的技术要求可能会因公司而异。

2.ETL工程师  

工作职责

ETL工程师(Extract, Transform, Load)负责数据的抽取、转换和加载工作。他们的日常工作职责和内容主要包括以下几个方面:

1. 数据抽取:ETL工程师负责从各种数据源中抽取数据,包括数据库、日志文件、API接口等。他们需要编写抽取程序或使用ETL工具,将数据从源系统中提取出来。

2. 数据转换:抽取到的数据通常需要进行清洗、转换和整合,以满足业务需求和数据仓库的要求。ETL工程师需要编写转换逻辑,对数据进行清洗、格式化、计算和合并等操作,使得数据能够被正确地加载到目标系统中。

3. 数据加载:ETL工程师需要将经过转换的数据加载到目标系统中,通常是数据仓库或数据湖。他们需要编写加载程序或使用ETL工具,将数据按照预定的格式和结构加载到目标系统中,确保数据的完整性和一致性。

4. ETL流程调度和监控:ETL工程师需要设计和维护ETL流程的调度和监控机制,确保数据的及时抽取、转换和加载。他们需要配置定时任务或使用调度工具,监控ETL流程的运行状态,及时发现和解决异常情况。

5. 故障排除和性能优化:在ETL过程中,可能会出现各种故障和性能问题。ETL工程师需要具备故障排除和性能优化的能力,能够分析和解决ETL过程中的问题,提高数据处理的效率和质量。

6. 与数据团队的协作:ETL工程师通常需要与数据工程师、数据科学家、数仓工程师和业务团队等密切合作。他们需要理解业务需求,协调数据的抽取、转换和加载工作,确保数据的准确性和可用性。

总之,ETL工程师在公司中负责数据的抽取、转换和加载工作,确保数据的准确性、完整性和一致性。他们与数据团队合作,提供高效、可靠的数据支持,满足业务的需求。

与数仓工程师的区别和工作交集

在日常工作中,ETL工程师和数据仓库(数仓)工程师有一些工作交集和区别。例如:

1.ETL工程师主要负责数据抽取、转换和加载的过程。他们专注于将数据从不同的源提取出来,并进行清洗、转换和整合,最后将数据加载到目标系统中。ETL工程师更加关注数据流程和数据处理的技术实现,同时etl工程师对业务db数据更加了解,对业务了解一般,更多精力放在如何利用大数据相关技术组件同步业务db的数据,并完成数据清洗工走。在数仓建设过程中,etl工程师主要负责数据的同步和清洗,更多偏重ods层的开发工作,数据同步到ods后,剩余的工作交接给数仓工程师做后续分层的模型设计和开发工作。

2.数据仓库工程师主要负责构建和管理数据仓库。数据仓库是一个集成的、面向主题的、可查询的数据存储,用于支持企业的决策分析。数据仓库工程师需要设计和建立数据仓库的架构,包括数据模型、表结构、索引等。他们还需要优化数据仓库的性能,确保数据的一致性和可用性。数仓工程是更加偏dw层的建设,利用etl工程师接入的数据做后续dw层的模型和开发工作,同时,模型设计、数据资产沉淀以及数仓体系化建设是数仓工程师的核心能力。

总的来说,ETL工程师和数据仓库工程师在职责和关注点上有所不同。ETL工程师更加专注于数据处理和转换的技术实现,而数据仓库工程师则更加关注数据仓库的设计、构建和管理。相比较etl工程师,数仓工程师多更加贴近业务,然而,在一些组织中,这两个角色的职责可能会有一定的重叠,具体的区别可能会因组织而异。

3.数据开发工程师  

岗位要求

数据开发工程师在不同公司定位不一样,有些公司虽然将数仓拆分成数仓和集市,一般数仓的技术团队我们称之为数仓开发工程师,集市或者应用层的建设团队称之为数据开发工程师。而有的公司,比如规模相对较小的公司,所有的数据开发工作都由一个数据开发团队负责,所以统称为数据开发工程师。一般我们对数据开发工程师的岗位工作要求是:

1. 数据采集和清洗:负责从各种数据源中采集数据,并进行清洗和预处理,确保数据的准确性和完整性。这可能涉及到数据抓取、数据清洗、数据转换等工作。

2. 数据存储和管理:设计和维护数据存储系统,包括数据仓库和数据湖,确保数据的安全性和可靠性。你需要选择适当的数据库和存储技术,并进行数据的备份和恢复。

3. 数据处理和分析:使用大数据处理和分析工具,如Hadoop、Spark等,对大规模数据进行处理和分析,提取有价值的信息和洞察。你需要编写和优化数据处理和分析的算法和代码。

4. 数据模型和架构设计:负责设计和优化数据模型和架构,确保数据的高效访问和查询性能。你需要了解数据库设计原则和最佳实践,并进行数据模型的规划和调优。

5. 数据质量和数据治理:评估和监控数据质量,制定数据治理规范和流程,确保数据的准确性和一致性。你需要制定数据质量标准和检查规则,并进行数据质量的监控和改进。

6. 数据可视化和报表开发:使用数据可视化工具,如Tableau、Power BI等,设计和开发直观清晰的数据可视化报表,帮助业务团队理解和利用数据。你需要将数据转化为可视化的形式,并提供易于理解和操作的报表和图表。

总体而言,作为大数据部门的数据工程师,你需要具备扎实的编程和数据处理能力,熟悉大数据技术和工具,掌握数仓建模理论,具备数据建模和数据质量管理的能力,并能够与团队紧密合作,为业务团队提供高质量的数据支持和解决方案。

与数仓工程师的区别和工作交集

这些工作职责和岗位要求可能会根据具体的组织和项目需求有所不同,但以上是数据开发工程师常见的工作职责和岗位要求。

数据工程师和数仓工程师在数据领域中扮演不同的角色,有一些区别。以下是它们之间的主要区别:

1.对于统称为数据工程师的团队,岗位职责没有过多区分,都是基于已有的大数据相关平台完成端到端的开发工作,例如从ods数据,dwd,dws,ads等建设都是由数据开发团队负责。数据工程师更多的是面向应用开发建设,以支撑业务需求为第一要素,对模型设计不如数仓工程师要求高。

2.对于大部分公司或者团队都会将这两种角色做区分,数仓工程师主要负责dw层设计和开发,负责构建数据仓库,将不同来源的数据整合到一个统一的数据存储中,构建统一化模型,沉淀公司资产,同时支持业务分析和决策,当然,部分公司数仓开发工程师也需要参与到应用层建设中。对区分的公司,一般是由etl工程师将业务db的数据接入到ods层后,数仓开发工程师利用ods的表自下而上设计数仓模型,以支撑各业务集市应用需求,而数据开发工程师基于数仓开发工程师设计开发的模型面向应用开发实现业务的需求,如报表等应用。可以直接引用数仓的dws汇总模型,当然也可以在ads基于数仓开发工程师设计开发的dim,dwd模型加工需求需要的模型。

对于etl工程师也好,数仓工程师还是数据开发工程师也好,都是同一个目的支撑公司数据类应用的需求,为业务团队提供高质量的数据支持和解决方案。
下一篇文章中会从数据治理工程师,BI工程师以及数据运维工程师这几个工作岗位的职责和技能跟大家聊聊。

作者:涤生大数据

标签:数仓,工程师,数据仓库,涤生,开发,数据,ETL,技能
From: https://blog.51cto.com/u_15346267/7597214

相关文章

  • hive数据分析
    HIVE数据分析实验报告信2105-320213728杨申龙数据导入 将csv文件导入到虚拟机的hive数据库中,并通过datagrip软件实现对数据库的可视化操作 数据清洗在datagrip中进行如下操作,将数值清洗为真实日期insert overwrite table test2 select date_add('2021-09-00',c......
  • 创新数据科学探索:DataSpell 2023,专业数据科学家的首选IDE
    在日新月异的数据科学领域,为专业数据科学家提供先进、便捷的工具有着至关重要的意义。2023年,一个备受瞩目的集成开发环境(IDE)——DataSpell,正以其独特的功能与优势,重新定义数据科学家的“瑞士军刀”。→→↓↓载DataSpell2023mac/win版一、DataSpell的主要特性数据科学全流......
  • 前端显示数据库中的换行文本:HTML和CSS解决方案
    在项目中经常会出现要显示数据库中的大段文本内容,如说明或备注等信息,当其中存储有换行符的时候,前端通常会忽略这个换行,直接在一行显示,那么怎么解决呢?解决方案一:使用HTML<br>标签HTML的<br>标签是一种简单而直观的方法,它可以将文本中的换行符正确地呈现在浏览器中。示例代码......
  • immerjs:React开发必会技能
    immerjs:React开发必会技能龙骑士尹道长 ​关注 2人赞同了该文章我们都知道React追求的泛式是数据不可变,一般情况下state或者props改变才进入render阶段;如果我们创建的state是一个一般数据类型,他就是一个不可变的值,如果需要改变我们需要重新创建一个state......
  • EasyGBS云存储方案让视频监控的存储与数据挖掘更有保障
    EasyGBS云存储方案为视频监控的存储与数据挖掘提供了更为可靠的保障。随着视频监控系统的广泛应用,海量的视频数据需要被高效地存储和管理,以应对日益增长的数据量和复杂的应用场景。而传统的本地存储方式往往面临着容量限制、数据冗余和安全性问题。EasyGBS云存储方案是一种基于......
  • 多通道振弦数据记录仪在预防地质灾害中的重要性
    多通道振弦数据记录仪在预防地质灾害中的重要性地质灾害是指在地表或岩体内部发生的、由地质原因引起的、对人类生命、财产和环境安全造成威胁或损害的各种灾害。地质灾害的预测和预防对于保障人民生命财产安全、维护社会稳定和可持续发展具有重要的意义。而多通道振弦数据记录仪......
  • XSAN数据恢复-存储空间从XSAN迁移到STORNEXT中误格式化系统的数据恢复案例
    XSAN数据恢复环境:昆腾存储,MACOS操作系统,划分了9个数据卷(1个META信息卷,8个DATA信息卷),存放视频类数据,MXF、MOV等格式文件。XSAN故障&分析:将存储空间从XSAN架构迁移到STORNEXT架构,迁移完成后发现存储空间中数据全部丢失。北亚企安数据恢复工程师分析META信息卷,读取其中的元信息,发......
  • 关于处理数据分页查询用最后一个id还是用offset
    批量处理数据经常用到分页查询,两个形式第一种1select*fromtablewherename='name'orderbyiddesc offset0limit102select*fromtablewherename='name'andid<lastIdorderbyiddesclimit10当需要id或者时间倒序查询时候。并且没有数据的截止点......
  • pbjs 无法编码 bytes 类型数据问题的解决方案
    问题背景之前写过一篇《使用脚本收发protobuf协议数据》,通过pbjs命令可以将protobuf二进制数据转换为json:>pbjsmsg.proto--decodeProbeIpv6Response<response.bin{"selfAddr":{"addrV6":"2409:8900:7900:8f0d:ecd9:4aee:aa3:7ad","port......
  • MySQL——处理JSON类型的数据
    MySQL对JSON类型数据的处理参考视频:快速学习MySQL8JSON注意,本文的键名也可以叫key,键值也可以叫value,意思是一样的1.字符串查询:JSON_EXTRACT假设我们有一个表叫做testDemo,其中有一个字段叫做details,类型为JSON,他的数据结构如下,我们就以这个结构为例(这是个例子,假设有很多行......