描述数据类项目:
-
描述数据源
在描述数据源时,将数据具体化。量化结果时,对于模型项目,可以将最后的准确率与随机准确率相比,对于分析项目,可以将最终的提升幅度与项目预期或同期的其他项目相比。
| 描述 | 改进后 |
| --- | --- |
| 从大量/海量数据中... | 从300万元的店铺销售额数据中.... |
| 显著提升 | 3%的转化率提升|
| 模型准确率达90% | 模型准确率达90%,与随机准确率45%相比,有了100%的提升;某品牌最终销售额提高3%,与预定的2%相比,有了50%的提升。 -
项目实现描述
应从整体的角度来描述,而不是对分析、挖掘的过程展开详细的描述,忽略了迭代的过程。
- 技术点描述
相对于罗列技术,使用以下说法可能效果更好:
使用Python中的sklearn完成XXX 、运用R中的ggplot2完成XX
使用随机森林模型完成订单分类、使用K-Means聚类完成用户的划分
同时,写技术点的细节要适量,否则项目失去重点,过犹不及。在模型部分,不需要把所有模型都写上,如“利用线性回归、逻辑回归、决策树、随机森林等算法完成xxx”
这些具体的技术点是面试重点,因此需要在这方面精心准备
- 项目描述demo
- 通过与xx的沟通,明确项目需求,选取最近X天的x条历史数据进行训练;
- 通过Hive从数据库中提取X个备选变量,利用Python中的XGBoost包进行训练优化,并根据重要性筛选出X个变量;
- 模型上线后,在召回率为X%的基础上,准确率从随即准确率为X%,提升至X%,涨幅达到X%;
- 上线后自动化生成监控报表,并根据变量的重要性,随着时间的变化,进行周期为X天/周/月的迭代过程。
项目丰富途径
- 大厂竞赛 :如阿里巴巴的天池大赛、华为codecraft算法竞赛等
- 自媒体:在各大平台发表技术类文章,形成自己的专栏或成为公众号号主。
面试技巧:
- 提前熟悉业务场景、企业同行情况
数据类岗位准备方向
数据分析: 统计学、机器学习、数据库、业务
数据仓库:数据库
数据倾斜、窗口函数、维护数据字典、L1L2范数、AB测试
面试题汇总
数分:
- 划分连续型随机变量和离散型随机变量的依据
- 常见分布的分布函数/概率密度函数,以及分布的特性,如指数分布的无记忆性
- 随机变量常用特征的解释(期望、方差等)
- 中位数是否等于期望
- 常见分布的特征值
- 如何给没有学过统计学的人解释正态分布
- 列举常用的大数定律及其区别
- 阐述中心极限定理和正态分布的直接关系
- 如何利用编程语言设计实验证明中心极限定理
- 阐述假设检验的原理
- 在假设检验中原假设和备择假设选择的依据
- 阐述假设检验中的两类错误
- 解释P-value、显著性水平、检验效能
- 解释z检验和t检验
- 贝叶斯派统计和频率派统计的区别
- 贝叶斯定理和全概率公式的应用
- 贝叶斯定理解释“三门问题”
数据挖掘:
- 数据集的划分方式,及各种数据集的作用
- 阐述欠拟合和过拟合,解释产生的原因
- 常用的模型分类方法有哪些,如监督/非监督、参数/非参数有哪些
- 模型中参数和超参数的区别
- 线性回归模型对误差所做的假设
- 线性回归模型调优的方法
- 线性回归模型的优缺点
- 逻辑回归和线性回归的异同点
- 逻辑回归中L1、L2正则解释及其区别
- 决策树选择分支的几种方式及其区别
- 随机森林预测结果优于决策树的原因
- 随机森林与GBDT模型的异同点
- 针对预测、二分类、多分类的模型评估方法
- 解释准确率和召回率
- 阐述ROC和AUC的联系
- 简述混淆矩阵
基础知识
统计知识
1. 随机变量
-
概念
随机实验: 在相同条件下对某随机现象进行大量重复观测。
举个栗子,APP给用户发放优惠券,以提升用户活跃度,促进用户消费。用户收到优惠券后是否会使用可以看作随机现象,将所有用户的优惠券使用情况进行汇总,计算优惠券的转化率,可以视为随机试验。
随机变量(X): 描述随机试验的结果,如抛硬币朝上的次数、优惠券的转化率, -
类型
离散型随机变量
连续性随机变量
1.2 离散型随机变量
- 伯努利分布(0-1分布)
- 二项分布(n重伯努利分布)
n个重复独立的伯努利分布(重复独立:每个伯努利分布事件发生的概率均为p;各个试验的结果互相独立,不受其他试验的干扰)