作者:桔了个仔,南洋理工大学,Datawhale成员
之前给从传统制造业转行的数据行业的朋友列的一个笔记,这里把原文贴出来。现在看来概括性不够,不过适合对大数据没有太多了解但想入行的人阅读。(语言环境问题,笔记里中英文交错,也没太整理,望见谅)
- Data相关行业介绍与入门要求。
- Entry level 的相关职位。
- Junior level员工职业发展路径。
一、Data相关行业介绍与入门要求
Data算不上行业,每个行业都会产生数据,公司越大产生的数据越多,需要的人才也越多。
也有的公司自己不存数据,只提供技术给其他大公司做数据建模的。
做Data的有几种情况:
- Data Scientist as analyst
- Data Scientist as model builder
- Data Scientist as engineering
- Data Scientist as full-stack
对Data职位来说,一般数学有一定要求,概率论和数据统计会经常面试考到,常见的考题会发给你看看,但如果你没有这个基础,还是要从头学习一下的。
- 数学要求:概率论和数据统计,线性代数等,面试常见考题包括:
- 均值与方差及其公式
- 什么是高斯分布
- 什么是正态分布
- 贝叶斯公式
- 三门问题
2.技能树(从入门到必须):
- python或者R。python资源较多,建议先学python
- 数据可视化。其实excel也可以做到,但还是
- 数据建模。会用到机器学习的知识
3. 学习资源:(coursera旁听audit不花钱,其实花钱拿证书含金量也不高,企业不怎么认可)
- 统计基础 https://www.coursera.org/learn/basic-statistics
- Python 入门 https://www.coursera.org/specializations/python
- DS 方向的python https://www.coursera.org/specializations/data-science-python
- Python 数据可视化 https://www.coursera.org/learn/python-for-data-visualization
- 机器学习 https://www.coursera.org/learn/machine-learning
如果是偏深度学习方向,例如计算机视觉,自然语言处理,会考到线性代数,要知道怎么进行矩阵运算。但为了先入门,这里就不介绍太多,怕消化不来。
引申:几种常用的机器学习
- 监督式学习(supervised learning)需要标记数据
- 非监督式学习(unsupervised learning)不需要标记数据。代表算法:k-means
- 强化学习(为了不压垮你的大脑,先跳过介绍)
业界常见模型:
- CNN: 主要用于识别图像
- LSTM:处理时间序列 ,自然语言处理等
二、Entry level 相关职位
两个方向:
- Data Engineer 编程语言:Scala, Java。软件框架包括hadoop, spark, hive, postgreSQL 等等。
- Data Scientist 编程语言: Python(最常用), R(少数公司用)。软件有的公司会自建Data Science Studio.也有很多服务提供商提供了DSS,例如DataRobot, Dataiku等。但建议不要依赖语言。Jupyter notebook是比较适合调试python 的工具,某些课程上会讲到。
- 两个方向都需要的:SQL语句(https://link.zhihu.com/?target=https%3A//www.coursera.org/learn/analytics-mysql)
- 如何入行与关注职位要求变化
- 学习上述的基本课程。
- 上linkedin看职位需求(注:国内linkedin用得少,可以看其他招聘网站)
三、Junior level员工职业发展路径
- Data Scientist 路线:senior → lead, 足够经验后可以做独立consultant或者加入咨询公司
- Data Engineer,senior → lead → 架构师
- 全栈方向,DS和DE都懂,现在有的公司招的是两方面都懂的,但建议先在某个方向做好了再去做另一个方向。两个方向都懂的consultant更吃香
我是桔了个仔,一个和猫咪一起写代码的猫奴,更多内容可点击原文查看。