第一部分 基础知识(T=3W)
1.1 数学(T=1W)
- 高数:导数、微分、积分、梯度、泰勒展开式
- 线性代数:向量、矩阵、运算、范数、特征向量和特征值
- 概率论:条件概率、期望等
1.2 Python(T=1W)
- 廖雪峰免费教程:(从第一讲看到常用的第三方模块,了解面向对象编程)
- Python实战:利用Python进行数据分析
第二部分 机器学习理论入门(T=3W)
2.1 统计学习方法(李航)
2.1.1 三个准则
(1)作为入门不要每章都看
(2)不要从零开始实现代码,太浪费时间
(3)必须能手推公式
2.1.2 章节目录
统计学习概论、感知机、朴素贝叶斯、决策树、逻辑回归与最大熵、提升树、xgboost
2.2 刘建平博客
第三部分 机器学习实战入门(T=1W)
3.1 阿里云天池大赛赛题解析(机器学习篇)
3.2 四个任务
- 工业蒸汽预测
- 天猫用户重复购买预测
- O2O优惠券预测
- 阿里云安全恶意程序检测
3.3 怎么学习
赛题理解、数据探索、特征工程、模型训练、模型验证、特征优化、模型融合
第四部分 深度学习理论入门(T=1M)
4.1 深度学习
4.2 NLP(T=2W)
文本分类、文本匹配、序列标注、文本生成
CS224n:一共18讲,P1-P5,P8,P9,P11
作业:重点看a1,a2,a4,a5;其实a5这个不做的话,也没问题,把前面给的这个三个一定自己走一遍;
必须熟悉的掌握:反向传播,词向量,RNN,GRU,Lstm,Seq2Seq以及attention机制;初步了解卷积神经网络;
4.3 CV(T=2W)
图像理解(分类、检测、分割、追踪)、图像生成(GAN模型)
CS231n:一共32讲,P1-P22
作业:1,2,3不用看
反向传播梯度回传,损失函数,优化算法,多层感知机,卷积神经网络,普通的循环神经网络,以及一些dropout和BN掌握住;
4.4 必看的一本书:邱锡鹏
4.5 Pytorch框架
- B站刘二大人:《PyTorch深度学习实践》完结合集,源代码
- 一个仓库
第五部分 深度学习实战入门(T=2W)
5.1 自然语言处理-新闻文本分类(T=1W)
5.1.1 赛题解析
5.1.2 分析数据
5.1.3 基于机器学习的文本分类任务
5.1.4 不同深度学习模型
5.2 计算机视觉-街景符号识别(T=1W)
5.2.1 赛题解析
5.2.2 数据读取与数据扩增
5.2.3 构建模型
5.2.4 模型训练与验证
5.2.5 模型集成
5.3 要求
- 必须弄清楚每行代码
- 调参