首页 > 其他分享 >大数据怎么学?对大数据开发领域及岗位的详细解读,完整理解大数据开发领域技术体系

大数据怎么学?对大数据开发领域及岗位的详细解读,完整理解大数据开发领域技术体系

时间:2024-04-30 17:45:02浏览次数:22  
标签:数据分析 工程师 能力 开发 对大 组件 数据

经常有小伙伴和我咨询大数据怎么学,我觉得有必要写一下关于大数据开发的具体方向,下次就不用苦哈哈的打字回复了。直接回复文章。

1.大数据岗位划分

我们通常说的大数据开发主要分为三大方向:

1.1数据平台开发工程师

主要从事后端开发,结合Hadoop,flink,spark等做二次开发,基于底层框架开发自己公司定制化的大数据产品,保障公司大数据技术平台的功能完整性和可用性,侧重Java等程序语言的后端开发能力以及对框架的了解。

1.2数据仓库工程师

主要从事数据建模,数据质量建设,数据治理,构建业务体系需要的数据等工作。侧重对数仓数据流转过程的理解以及SQL能力,还有使用程序语言处理数据的能力。例如java,scala,python,R等。

需要工程师对大数据生态各种组件有更多的了解和使用经验,尤其对数据仓库组件要有使用调优的能力。

1.3数据分析工程师

基于业务做一些数据分析以及数据挖掘的工具,技术要求是重度SQL使用者,Python各种分析库的使用,设置还需要具备数据挖掘能力。统计学相关的知识对该岗位有很大帮助。

要求工程师具备数据分析,理解数据价值的能力。

2.对应需要具备的能力

理解了大数据开发的三条链路,我们再来理解作为一个大数据行业的开发人员,我们要具备什么能力。

2.1数据平台开发工程师

数据平台开发工程师该岗更像是一个完全的后端开发,只不过技术领域范围更偏向于大数据领域的开发组件一些。完全可以按后端工程师的技术链路进行学习和提升自己。

2.2数据仓库工程师

数据仓库工程师是一个核心。在这块不同公司对数仓有着不同的要求。但整体汇总下来,无非以下几个方面。

  • 对整个数据流转链路有这深刻的认知,并且具有完善的数据建模理论体系知识
  • 优秀的数据处理能力,包括但不限于Hadoop生态,Spark生态,Flink生态的数据处理和优化能力。
  • 具备良好的技术选型能力,包括从数据集成,数据存储,数据计算,到数据应用侧的组件技术选型。
  • 具备数据治理能力,对数据链路的数据质量以及数据风险等有全面认知,能够提出并执行数据治理方案,保障公司的数据质量和数据成本及数据安全等。

如果以上四个方面,都自认为已经达到了不错的能力,那么作为个人来说,可能就已经是一个合格的高级数据仓库工程师了。

2.3数据分析工程师

针对数据分析工程师的要求,更像是对一个完全业务人员的要求,甚至有些企业会将该岗位进一步细分为商业数据分析师(商分)和数据产品经理(数据产品)来进行更详细的差异化要求。

数据分析工程师概括性的应该具备以下几个方面的能力。

  • 良好的数据分析工具使用能力,一般指各种SQL以及Python等。
  • 丰富的数据分析方法和算法理论知识,一般指统计学上的各种理论知识。
  • 业务敏感,业务数据需求理解和良好沟通。
  • 具有分析报告撰写和提出解决方案的能力。
  • 具备一定的数据挖掘能力,能够支持更进一步的数据分析和数据预测。

以上五个方面层层递增,同样,如果满足该五个方面的能力,那么对个人来说,已经是一个合格的高级数据分析工程师了。

整体来说,技术属性这三个岗位是逐层递减的,入门难度也是逐层递减的。

但是在高级开发的层面又不分你我了。

以上为整个大数据类岗位发展详细解释。大数据运维岗,那又是另一个故事了。

3.大数据技术体系

整个大数据技术体系又分为哪些部分呢?

3.1按功能划分

  • 离线大数据体系

离线数据开发过程中的技术,组件以及理论体系

  • 实时大数据体系

实时数据开发过程中的技术,组件以及理论体系

  • 常见OLAP数据库

数据分析领域的技术应用

  • 数据湖

数据湖完整解决方案

3.2按技术体系划分

  • Java基础,并发及虚拟机

理解这部分是因为大数据很多组件都是和java密不可分的,报错信息里充满了Java的相关知识。

  • 大数据组件部分(离线+实时)

大数据体系的组件Hadoop,Hive,Hbase,Kafka,Spark,Flink等的应用,优化,理论,底层原码等等。

  • 离线数仓和实时数仓建设

离线数仓和实时数仓理论,建模经验,优化方案

  • 调度系统,OneData理论

构建完整的调度体系,数据一体化理论。

  • 常见的OLAP数据库

数据分析领域的技术应用

  • 数据湖

数据湖完整解决方案

  • 数据治理知识体系

数据治理相关知识。

以上,本期全部内容。

感谢阅读。

按例,欢迎点击此处关注我的个人公众号,交流更多知识。

标签:数据分析,工程师,能力,开发,对大,组件,数据
From: https://www.cnblogs.com/lubians/p/18168480

相关文章

  • pandas:时间序列数据的周期转换
    时间序列数据是数据分析中经常遇到的类型,为了更多的挖掘出数据内部的信息,我们常常依据原始数据中的时间周期,将其转换成不同跨度的周期,然后再看数据是否会在新的周期上产生新的特性。下面以模拟的K线数据为例,演示如何使用pandas来进行周期转换。1.创建测试数据首先创建测试数据......
  • js逆向实战之数位观察响应数据解密
    url:https://www.swguancha.com/home/city-detail?code=310100分析过程抓数据包,发现回显数据是加密字符串。对于这种回显数据解密,大概率通过拦截器实现,搜索interceptors。只需关注响应拦截器,一共两处。第一处,只是对字符串的弹出和插入操作,不是。第二处,可以看到de......
  • 技术探秘:如何利用仪表构造InfiniBand流量在数据中心测试中的应用
    一、什么是Infiniband?在当今数据爆炸的时代,数据中心作为信息处理的中心枢纽,面临着前所未有的挑战。传统的通信方式已经难以满足日益增长的数据传输需求,而InfiniBand技术的出现,为数据中心带来了全新的通信解决方案。InfiniBand(IB)是一种高性能计算和数据中心网络架构,其设计目标是......
  • Java实现自定义指标数据远程写入Prometheus
    主要的流程如下:1>prometheus添加启动参数2>调用http请求来远程写,数据格式是protobuf(一种自定义的编码格式),编码格式是snappy(一种压缩格式)3>远程写通过snappy先压缩,然后将通过protobuf编码的字节数组发送请求;prometheus官网文档远程写提供remote.proto(包含编码和解码),remote.pr......
  • 测试的F12开发者工具
    1F12妙用复制文字某些不允许复制的网站,可以通过F12选中元素,快速复制编辑页面上的任何文本在控制台输入document.body.contentEditable="true"或者document.designMode="on"即可查看隐藏的密码选中密码所在的元素,将文本框类型从type="passwor......
  • simpread-课程 24:工作单元之数据库事务【AOP】
    一、工作单元事务代码分析在上一个课程,我们已经实现了数据库事务功能,来保证数据的完整性。通过上一个课程的实现方式,我们在每一个Action开头和结尾,都需要添加对应的代码,才能实现事务功能,具体见以下截图:这种实现方式存在以下2个问题:在具体业务开发中,一个请求往往都会涉......
  • 算法训练优化的经验:深入任务与数据的力量
    引言在算法优化的世界中,理解所面对的任务不仅是起点,也是整个优化过程的核心。在这篇博客中,我将分享我在算法训练和优化中的一些经验,以及一个关于场景流估计的项目中应用的案例。我希望这些经验能帮助你在未来的项目中取得更好的成绩。1.深入理解任务和数据理解算法项目的......
  • IO的数据集使用案例
    用AQ2ST和AI4ST做回环测试,主要是验证AQ2和AI4手册上的DS数据集DS参数写入REGIONparamsinputIFNOT#In_SelectedChannelTHEN#params_AQ2ST.RDREC.index:=64;#params_AQ2ST.WRREC.index:=64;#params_AI4ST.RDREC.index:=0;......
  • centos7数据盘挂载/硬盘挂载/磁盘挂载
    挂载命令:1、数据盘挂载命令:用“lsblk”命令看数据盘信息,确定设备文件名如:dev目录下的vdb。2、执行fdisk/dev/vdb,按界面提示依次输入“n”(新建分区)、“p”(新建扩展分区)、“1”(使用第1个主分区),两次回车,输入“w”(保存分区表),完成后分区vdb1创建完成。3、使用命令对新分区......
  • PHP框架Laravel+Vue3+前后端分离开发模式+实战项目
    1、本实战项目采用前后端分离的开发模式,前端框架vue3,后端框架laravel10。所谓的前后端分离的开发,就是有别于利用cookie,session的基于会话机制的开发模式;前后端分离的开发模式是基于jwt的开发模式,也就是说后端的接口数据不仅可以支持web页面,也可以支持微信小程序,公众号,app等移动端......