首页 > 其他分享 >2025最全大数据工程师学习路线(建议收藏)

2025最全大数据工程师学习路线(建议收藏)

时间:2024-12-26 14:27:34浏览次数:5  
标签:数仓 工程师 最全 Flink Hadoop 实时 2025 集群 数据

  找工作、写论文、项目实训以及实战项目课程学习私信我哟

【不要错过文末彩蛋】

申明:

本文旨在为【大数据自学者|大数据专业学生|工资低的程序员(Java/Python等)】提供一个从入门到入职的的大数据技术学习路径,不适合5年以上大数据工程师的进阶学习。


前言:

一、个人介绍

二、大数据介绍

正文:

一、大数据工作岗位

二、大数据工程师技能要求

三、大数据系统学习路径

四、推荐持续学习资源(书籍、教程)

五、大数据项目实战(离线计算、实时计算、离线数仓、实时数仓、ELK)


前言

一、个人介绍

本人目前是一名大数据高级工程师,项目数据容量100P+,日处理数据量200T+,集群规模1000+节点,个人是Java前后端开发,因公司项目开发需要,边学习边做项目,四个月成功完成公司项目并成功转型大数据工程师,后经过长时间积累先后著书《实战大数据(Hadoop+Spark+Flink)》、《Hadoop大数据技术基础与应用》、《大数据开发工程师面试笔试宝典》、《实战大数据-分布式大数据分析处理系统开发与应用》 。

二、大数据介绍

1.数据源

在大数据时代,数据是第一生产力,因为大数据技术的核心就是从数据中挖掘价值,那么最重要的是要有所需要的数据,而第一步需要做的就是弄清楚有什么样的数据、如何获取数据。在企业运行过程中,特别是互联网企业,会产生各种各样的数据,但是企业不能正确获取数据或者没有获取数据的能力,就无法挖掘出数据中的价值,浪费了宝贵的数据资源。

2.数据获取

数据的来源不同、格式不同,获取数据所使用的技术也不同。Web网站的很多数据产生于用户的点击,可以使用低侵入的浏览器探针(一种Web脚本程序,实质上是通过网页编程语言(ASP、PHP、ASP.NET等)实现探测服务器敏感信息的脚本文件)技术采集用户浏览数据,以及获取网页数据常用的爬虫技术、采集MySQL数据库binlog 日志的组件Canal、采集Web服务器日志数据的组件Flume。数据获取之后,为了方便不同应用消费数据,可以将数据打入Kafka消息中间件。

3.数据存储

存储是所有大数据技术组件的基础,存储的发展远远低于CPU和内存的发展,虽然硬盘存储容量多年来在不断地提升,但是硬盘的访问速度却没有与时俱进。所以对于大数据开发人员来说,对大数据平台的调优很多时候主要集中在对磁盘IO的调优。

实验数据得出:1TB的硬盘,在数据传输速度约为100MB/s的情况下,读完整个磁盘中的数据至少得花2.5个小时。试想,如果将1TB数据分散存储在100个硬盘,并行读取数据,那么不到两分钟就可以读完所有数据。通过共享硬盘对数据并行读取,可以大大缩短数据分析时间。

虽然如此,但要对多个硬盘中的数据并行进行读写,首要解决的问题就是硬件故障问题。一旦开始使用多个硬件,其中个别硬件就很有可能发生故障。为了避免数据丢失,最常见的做法是复制(replication):系统保存数据的副本(replica),一旦有系统发生故障,就可以使用另外保存的副本。一种方式使用冗余硬盘阵列(RAID),另外一种方式就是HDFS分布式文件系统。另外还有构建在HDFS之上的HBase分布式列式数据库,可以提供实时的多维分析。

4.数据处理

有了数据采集和数据存储系统,我们可以对数据进行处理。对于大数据处理按照执行时间的跨度可以分为:离线处理和实时处理。

5.交互式分析

在实际应用中,经常需要对离线或者实时处理后的历史数据,根据不同的条件进行多维分析查询及时返回结果,这时候就需要交互式分析。交互式分析,基于历史数据的交互式查询,通常的时间跨度在数十秒到数分钟之间。在大数据领域中,交互式查询通常用于实时报表分析、实时大屏、在线话单查询等。

传统的方式,常常使用数据库做交互式查询,比如MySQL、Oracle。随着数据量的增大,传统数据库无法支撑海量数据的处理,交互式查询采用分布式技术成为最佳的选择。大数据领域中的交互式查询,主要是基于SQL on Hadoop。SQL on Hadoop是一个泛化的概念,是指Hadoop生态圈中一系列支撑SQL接口的组件和技术。后续会讲解几个常见的SQL on Hadoop技术,比如Hive SQL、Spark SQL、FlinkSQL。

6.机器学习与数据挖掘

在利用大数据技术对海量数据进行分析过程中,常规的数据分析可以使用离线分析、实时分析和交互式分析,复杂的数据分析就需要利用数据挖掘和机器学习方法。
在大数据开发过程中,利用机器学习对海量数据进行数据分析挖掘,大数据开发人员通常需要会使用机器学习库即可,不需要自己开发算法。目前使用较多、比较成熟的机器学习库是Spark 框架中的Spark ML,大数据开发人员可以直接利用Spark ML 进行数据挖掘。当然也可以使用Flink框架中的Flink ML,不过Flink ML还在发展过程中,不是很成熟和完善。

7.资源管理

资源管理的本质是集群、数据中心级别资源的统一管理和分配,以提高效率。其中多租户、弹性伸缩、动态分配是资源管理系统要解决的核心问题。

为了应对数据处理的各种应用场景,出现了很多大数据处理框架,比如MapReduce、Hive、Spark、Flink、JStorm等,那么也就存在着多种应用程序与服务,比如离线作业、实时作业等,为了避免服务和服务之间、任务和任务之间的相互干扰,传统的做法是为每种类型的作业或者服务搭建一个单独的集群。在这种情况下,由于每种类型作业使用的资源量不同,有些集群的利用率不高,而有些集群则满负荷运行、资源紧张。

为了提高集群资源利用率、解决资源共享问题,YARN在这种应用场景下应运而生。YARN是一个通用的资源管理系统,对整个集群的资源进行统筹管理,其目标是将短作业和长服务混合部署到一个集群中,并为他们提供统一的资源管理和调度功能。在实际企业应用中,一般都会将各种大数据处理框架部署到YARN 集群上,如MapReduce On YARN、Spark OnYARN、Flink On YARN等,方便资源的统一调度与管理。

以上大致就把整个大数据生态里面用到的工具所解决的问题列举了一遍,知道了他们为什么而出现或者说出现是为了解决什么问题,进行学习的时候就有的放矢了。


正文

一、大数据工作岗位

大数据工作岗位主要包含以下几个方向:

1.大数据开发工程师

2.大数据分析师

3.大数据运维工程师

4.大数据仓库工程师

5.ETL工程师

6.数据挖掘工程师

二、大数据工程师的技能要求

三、大数据学习路径

 第1阶段:大数据基础

(1)Linux命令及shell编程学习

1)Linux系统介绍与安装

2)Linux目录结构介绍

3)Linux常用命令

4)Linux软件安装

5)Linux网络配置

6)Linux防火墙配置

7)Linux时钟同步

8)Linux shell编程

(2)Java编程基础

1)Java基础

2)Java面向对象

3)Java 线程与进程

4)Java集合

5)Java IO

6)Java正则表达式

(3)MySQL数据库

1)MySQL安装配置

2)数据类型与数据库操作

3)外键约束及修改数据库表

4)数据库表相关操作

5)子查询与连接

6)运算符和函数

7)自定义函数

8)存储过程

第2阶段:大数据开发工程师(Hadoop+Spark+Flink)

  1. Hadoop大数据技术概述
  2. HDFS分布式文件系统
  3. YARN资源管理系统
  4. MapReduce离线计算框架
  5. Zookeeper分布式协调服务
  6. 搭建Hadoop分布式集群
  7. Hive数据仓库工具
  8. HBase分布式数据库
  9. Sqoop数据迁移
  10. Flume海量日志采集
  11. Kafka分布式消息队列
  12. Davinci BI数据分析
  13. Spark内存计算框架
  14. Flink实时计算框架
  15. 项目实战:互联网金融大数据离线分析
  16. 项目实战:互联网直播大数据实时分析

第3阶段:大数据离线数仓工程师(Hadoop)

  1. 数据仓库基础
  2. 数仓项目规划
  3. 项目需求分析
  4. 架构设计与技术选型
  5. 大数据集群节点准备
  6. Zookeeper分布式协调服务
  7. HDFS分布式文件系统
  8. YARN资源管理系统
  9. 搭建Hadoop分布式集群
  10. MapReduce离线计算框架
  11. 智慧社区业务数据导入
  12. Hive大数据离线分析
  13. Sqoop数据导入导出
  14. 数仓建模理论
  15. 数仓设计规范
  16. 搭建数仓ODS层
  17. 搭建数仓DWD层
  18. 搭建数仓DWS层
  19. 搭建数仓ADS层
  20. 报表数据导入MySQL
  21. Azkaban作业调度系统
  22. 离线数仓作业调度
  23. 智慧社区数仓大屏制作

第4阶段:大数据实时数仓工程师(Flink)

  1. 数据仓库基础
  2. 数仓项目规划
  3. 项目需求分析
  4. 实时数仓架构设计
  5. 实时数仓技术选型
  6. 搭建Hadoop大数据平台
  7. 智慧社区业务数据导入
  8. 搭建数据采集与存储平台
  9. 数仓建模理论
  10. 数仓设计规范
  11. 搭建实时数仓ODS层
  12. 搭建实时数仓DWD层
  13. 搭建实时数仓工具Clickhouse
  14. 搭建实时数仓DWS层
  15. 搭建实时数仓ADS层
  16. 智慧社区数仓大屏制作

第5阶段:大数据ELK工程师(ElasticSearch+Logstash+Kibana)

  1. ElasticSearch概述
  2. ElasticSearch单节点安装
  3. ElasticSearch restful实操
  4. ElasticSearch核心技术
  5. ElasticSearch Java客户端开发
  6. ElasticSearch 索引及分词
  7. ElasticSearch分布式集群安装部署
  8. ElasticSearch性能调优
  9. ELK项目需求分析与架构设计
  10. Filebeat数据采集
  11. Logstash数据聚合与解析
  12. ELK海量日志分析平台搭建
  13. ELK项目优化与总结
  14. Kibana大数据分析与可视化

第6阶段:大数据运维工程师

  1. 初始大数据运维
  2. 大数据运维基础
  3. 大数据运维核心技术
  4. 集群规划与部署平台选择
  5. 大数据集群部署方式
  6. 大数据集群组件自动化部署
  7. 大数据集群级别监控
  8. 大数据组件监控与调优
  9. 大数据集群安全认证与授权
  10. 6个集群配置方面的案例
  11. 3个安装服务方面的案例
  12. 3个日常运维管理方面的案例
  13. 6个测试和故障排查方面的案例
  14. 2个集群升级、配置高可用的案例

第7阶段:大数据专题进阶

Flink SQL流批一体技术

  1. Flink流批统一
  2. Flink Table编程全面详解
  3. Flink SQL编程全面详解
  4. Flink SQL Time与Watermark
  5. Flink SQL Window操作
  6. Flink SQL内置函数与自定义函数
  7. Flink SQL 元数据管理
  8. 互联网直播项目之Flume日志数据采集
  9. 互联网直播项目之Kafka数据存储
  10. 互联网直播项目之Davinci BI数据分析
  11. 互联网直播项目之Flink 核心知识进阶
  12. 互联网直播项目之全流程开发

ClickHouse实时数仓利器

  1. Clickhouse基础
  2. Clickhouse单节点安装部署
  3. Clickhouse架构设计
  4. Clickhouse数据分析查询实操
  5. MergeTree底层原理分析
  6. Clickhouse集群节点准备
  7. 搭建Clickhouse分布式集群
  8. Clickhouse副本与分片使用及读写原理
  9. Clickhouse与Kafka集成开发
  10. Clickhouse与MySQL集成开发
  11. Clickhouse与Spark集成开发
  12. Clickhouse与Flink集成开发

第8阶段:不断学习总结

每隔一段时间都会有新的技术出现,需要关注最新技术动态,不断学习。任何技术的学习一定要理论结合项目,在项目实战中不断完善理论。

(1)如果觉得看书学习效率慢,可以跟着我录制的系统教程学习。如果觉得看视频比较费时间,可以阅读我的著书《实战大数据(Hadoop+Spark+Flink)》、《Hadoop大数据技术基础与应用》

(2)如果项目中已经在使用Spark,并且秒级别的实时处理可以满足需求,建议使用Spark Streaming,比如广告、报表、推荐系统等业务。 要求消息投递语义为Exactly Once的场景,数据量较大,要求高吞吐低延迟的场景,需要进行状态管理或窗口统计的场景,建议使用Flink。比如实时告警、销售大屏业务。

(3)要逐步掌握快速学习的能力、解决问题的能力、高效沟通交流的能力。

(4)要擅于使用百度、StackOverFlow和Google解决学习和工作过程中遇到的问题。

(5)视频课程推荐(实战项目9.9块搞定,在个人介绍中添加我私信)

坦率说,以上大数据必备技能的内容在网上可以白嫖,一分钱不用花。但还有60%内容是嫖不到的。硬要去找的话,要么深度不够,要么实战性很鸡肋,甚至根本没有。比如:

FlinkSQL网上几乎找到不‬带项目的系统‬视频的;实时仓数‬项目,Flink技术栈先进,有实际业场务‬景的项目,新制录‬的;200+页大数据面及试‬参考答案,出本书没都‬问题,单份这‬资料己自‬取去搜集,时间+答案整理3000也下不来。

四、大数据持续学习资源推荐

Apache 官网(http://apache.org/)
Stackoverflow官网(https://stackoverflow.com/)
Github官网(https://github.com/)
Cloudra官网(https://www.cloudera.com/)
Databrick官网(https://databricks.com/)

五、大数据实战项目案例(实战项目9.9块搞定,添加我个人介绍私信)

(1)Spark Streaming广告点击实时分析项目

(2)Flink Streaming新闻热搜实时分析项目

(3)Hadoop互联网金融离线分析项目

(4)Flink Streaming互联网直播实时分析项目

(5)Hadoop智慧社区离线数仓项目

(6)Flink智慧社区实时数仓项目

(7)FlinkSQL日志审计实时分析项目

(8)ELK海量日志运维项目

六、推荐课程权益
01 永久免费学习,无2次收费

02 提供有偿面试指导与简历修改服务

03 赠送大数据面试题与答案(共200+页,珍贵得很!匆外传!)

重要、重要、重要:推荐课程可以添加个人介绍里面的私信!

【推荐个人相关大数据项目实战图书】

1.Hadoop大数据技术基础与应用

2.实战大数据(Hadoop+Spark+Flink)

3.《大数据开发工程师面试笔试宝典》

4.《实战大数据-分布式大数据分析处理系统开发与应用》 

标签:数仓,工程师,最全,Flink,Hadoop,实时,2025,集群,数据
From: https://blog.csdn.net/yangjun_1985/article/details/144707521

相关文章

  • FastReport 2024年回顾与2025年展望:创新与跨平台发展之路
    2024年对于FastReport来说是充满挑战和收获的一年。FastReport在多个领域取得了重要突破和创新成果,不仅不断优化现有产品,还推出了一些令人振奋的新功能和新产品。接下来,FastReport将总结今年的关键成就,并展望未来的发展。FastReport的报表生成器(无论VCL平台还是.NET平台),跨平台......
  • 2025毕设ssm全国乡村振兴信息服务平台程序+论文
    本系统(程序+源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容一、研究背景随着我国乡村振兴战略的全面推进,大量的资源、信息和数据在乡村振兴工作中不断产生和流动。然而,目前这些信息分散、缺乏有效的整合与管理,导致信息......
  • 2025毕设ssm人事管理系统程序+论文
    本系统(程序+源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容一、研究背景随着现代企业规模的不断扩大和管理的日益复杂,人事管理面临着巨大的挑战。传统的人事管理方式往往依赖于手工操作或简单的电子表格,这种方式效率低......
  • # 学期(如2024-2025-1) 学号(如:20241402) 《计算机基础与程序设计》第14周学习总结
    学期(如2024-2025-1)学号(如:20241402)《计算机基础与程序设计》第14周学习总结作业信息这个作业属于哪个课程<班级的链接>(如2024-2025-1-计算机基础与程序设计)这个作业要求在哪里<作业要求的链接>(如2024-2025-1计算机基础与程序设计第一周作业)这个作业的目标<写上......
  • 2025最新苹果手机群控攻略:如何轻松管理多个设备
    ‌2025最新苹果手机群控攻略:通过群控技术轻松管理多个设备‌要轻松管理多个苹果手机,可以利用最新的苹果手机群控技术。以下是一些关键的攻略步骤:‌选择可靠的群控软件‌:选择一款界面简洁明了、操作简便的苹果手机群控软件‌确保软件支持批量操作、实时监控、远程控制等功能......
  • 网络安全2025最详细学习路线,建议收藏!
     为了帮助小伙伴们系统化学习网络安全,我整理了一套超详细的学习路线,无论你是零基础入门还是想进一步提升,都可以参考!而且资料包免费分享,赶紧收藏!​第一阶段:网络安全基础入门1.计算机基础学习目标:掌握计算机系统组成和操作。推荐内容:操作系统基础(Windows......
  • 10个免费项目管理软件推荐——2025年提升团队协作的最佳选择
    在当今竞争激烈的商业环境中,高效的项目管理和团队协作是企业取得成功的关键因素之一。随着数字化技术的不断发展,越来越多的免费项目管理软件涌现出来,为各类团队提供了便捷、高效的项目管理解决方案。本文将为您提前推荐10款2025年提升团队协作的最佳免费项目管理软件,帮助您的团队......
  • 软考小白看过来,最全软考攻略科普!
    种一棵树最好的时间是十年前其次是现在~最近经常听大家提到“软考”“软考”到底是什么呢?与我们又有什么关系呢?软考考完能做什么呢?真的适合我吗?最全攻略科普来啦!!!#01什么是软考?软考全称是计算机技术与软件专业技术资格(水平)考试,是由国家人力资源和社会保障部、工业和......
  • 【甲方安全】政府行业+80个威胁检测与安全事件分析场景(2025)
    本篇幅详细梳理了80个在政企网络安全分析中常见的应用场景,这些场景涵盖了从攻击前兆(如漏洞扫描、情报收集)、攻击过程(如漏洞利用、横向移动)到攻击结果(如数据加密、信息泄露)的各个阶段,旨在协助SOC分析师们更好地构建主动防御体系。这些场景并非抽象概念,而是来源于日常安全运营中......
  • 案例集 |中企通信入榜信通院《2024大模型典型示范应用案例集》精选99个,纵览最新最全产
    导读2024年是大模型深入赋能千行百业,融入实体经济,助力科技创新的一年。截至今年5月,我国国产大模型的数量已经超过300个,预示着大模型在各行业场景的创新应用和深度拓展,对培育新质生产力、高水平赋能新型工业化、推动高质量发展发挥了重要作用。今年,国务院政府工作报告......