首页 > 其他分享 >数据行业非完全入门指南!

数据行业非完全入门指南!

时间:2022-10-20 16:35:27浏览次数:43  
标签:指南 www 入门 python coursera 完全 Scientist org Data


作者:桔了个仔,南洋理工大学,Datawhale成员

之前给从传统制造业转行的数据行业的朋友列的一个笔记,这里把原文贴出来。现在看来概括性不够,不过适合对大数据没有太多了解但想入行的人阅读。(语言环境问题,笔记里中英文交错,也没太整理,望见谅)

  1. Data相关行业介绍与入门要求。
  2. Entry level 的相关职位。
  3. Junior level员工职业发展路径。

一、Data相关行业介绍与入门要求

Data算不上行业,每个行业都会产生数据,公司越大产生的数据越多,需要的人才也越多。

也有的公司自己不存数据,只提供技术给其他大公司做数据建模的。

做Data的有几种情况:

  • Data Scientist as analyst
  • Data Scientist as model builder
  • Data Scientist as engineering
  • Data Scientist as full-stack

对Data职位来说,一般数学有一定要求,概率论数据统计会经常面试考到,常见的考题会发给你看看,但如果你没有这个基础,还是要从头学习一下的。

  1. 数学要求:概率论和数据统计,线性代数等,面试常见考题包括:
  • 均值与方差及其公式
  • 什么是高斯分布
  • 什么是正态分布
  • 贝叶斯公式
  • 三门问题

2.技能树(从入门到必须):

  • python或者R。python资源较多,建议先学python
  • 数据可视化。其实excel也可以做到,但还是
  • 数据建模。会用到机器学习的知识

3. 学习资源:(coursera旁听audit不花钱,其实花钱拿证书含金量也不高,企业不怎么认可)

数据行业非完全入门指南!_数据

  • 统计基础 https://www.coursera.org/learn/basic-statistics
  • Python 入门 https://www.coursera.org/specializations/python
  • DS 方向的python https://www.coursera.org/specializations/data-science-python
  • Python 数据可视化 https://www.coursera.org/learn/python-for-data-visualization
  • 机器学习 https://www.coursera.org/learn/machine-learning

如果是偏深度学习方向,例如计算机视觉,自然语言处理,会考到线性代数,要知道怎么进行矩阵运算。但为了先入门,这里就不介绍太多,怕消化不来。

引申:几种常用的机器学习

  1. 监督式学习(supervised learning)需要标记数据
  2. 非监督式学习(unsupervised learning)不需要标记数据。代表算法:k-means
  3. 强化学习(为了不压垮你的大脑,先跳过介绍)

业界常见模型:

  • CNN: 主要用于识别图像
  • LSTM:处理时间序列 ,自然语言处理等

二、Entry level 相关职位

两个方向:

  • Data Engineer 编程语言:Scala, Java。软件框架包括hadoop, spark, hive, postgreSQL 等等。
  • Data Scientist 编程语言: Python(最常用), R(少数公司用)。软件有的公司会自建Data Science Studio.也有很多服务提供商提供了DSS,例如DataRobot, Dataiku等。但建议不要依赖语言。Jupyter notebook是比较适合调试python 的工具,某些课程上会讲到。
  • 两个方向都需要的:SQL语句(https://link.zhihu.com/?target=https%3A//www.coursera.org/learn/analytics-mysql)
  • 如何入行与关注职位要求变化
  • 学习上述的基本课程。
  • 上linkedin看职位需求(注:国内linkedin用得少,可以看其他招聘网站)

三、Junior level员工职业发展路径

  • Data Scientist 路线:senior → lead, 足够经验后可以做独立consultant或者加入咨询公司
  • Data Engineer,senior → lead → 架构师
  • 全栈方向,DS和DE都懂,现在有的公司招的是两方面都懂的,但建议先在某个方向做好了再去做另一个方向。两个方向都懂的consultant更吃香

我是桔了个仔,一个和猫咪一起写代码的猫奴,更多内容可点击原文查看。

数据行业非完全入门指南!_机器学习_02

数据行业非完全入门指南!_机器学习_03


标签:指南,www,入门,python,coursera,完全,Scientist,org,Data
From: https://blog.51cto.com/u_15699042/5780257

相关文章

  • 报告发布|“双轮驱动”重磅升级,天猫联合瓴羊、罗兰贝格发布《天猫DTC企业经营指南 :以人
    去年双11前夕,天猫发布DTC新战略以及《天猫企业经营方法论》,引入货品驱动增长视角,助力企业“双轮驱动”。转眼又到双11。在过去的一年,越来越多的企业由“粗放式增长”开始......
  • rabbitmq 入门案例
                (26条消息)Springboot整合RabbitMq,用心看完这一篇就够了_小目标青年的博客-CSDN博客_springbootrabbitmq......
  • HTML快速入门和HTML标签-文件标签
    HTML快速入门快速入门:语法:1.html文档后缀名.html或者.htm2.标签分为1.围堵标签:有开始标签和结束标签。如<html> </html>2.自闭和标......
  • 算法数学笔记-五、群论入门
    #五、群论入门####群的定义可以理解为:$群G(S,*)=集合(S)+运算(*)$群的4个条件:在运算$*$作用下:1.封闭性2.存在单位元3.逆元存在4.$*$运算满足结合律 ####......
  • 【RocketMQ入门到精通】— RocketMQ学习入门指南 | RocketMQ物理部署结构精讲
    名言警句任何先进的技术均与魔法无异追本溯源​​经历了6个月的失踪,我将带着干货终究归来!【RocketMQ入门到精通】​​RocketMQ逻辑部署结构ProducerGroup(生产者组)   ......
  • 题解 For Problem. 完全参差序列
    Problem.完全参差序列题目背景2022年,南京师范大学迎来了120周年校庆,值此120周年校庆筹备工作全面启动之际,学校诚邀海内外校友、社会贤达、各界人士壬寅中秋相聚金陵,......
  • 毕业论文速成指南来了!
     Datawhale干货 作者:汪健麟,电子科技大学;审稿:牧小熊转眼间硕士毕业半年有余,想起肝毕业论文时的通宵达旦和不知被抓掉了多少的头发,心有余悸。又值一年论文季,总结一下我当时......
  • 《MiniPRO H750开发指南》第六十一章 UCOSII实验1-任务调度
    六十一章UCOSII实验1-任务调度​前面我们所有的例程都是跑裸机程序,简称裸跑,从本章开始,我们将分3个章节向大家介绍UCOSII(实时多任务操作系统内核)的使用。本章,我们将向大家介......
  • CV语义分割实践指南!
     Datawhale干货 作者:徐和鼎,浙江大学,Datawhale优秀学习者遥感技术已成为获取地表覆盖信息最为行之有效的手段,已经成功应用于地表覆盖检测、植被面积检测和建筑物检测任务。......
  • nginx系列之一:nginx入门
    nginx系列之一:nginx入门@目录nginx系列之一:nginx入门前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言nginx系列之一:nginx入门nginx系列之二:配置文件解读......