文章目录
- 前言
- 1.常见的数据分析师的面试问题
- 1.1 基础知识考查
- **1.1.1概率论与数理统计:**
- (1)用简洁的话语简述**随机变量**的含义。
- (2) 随机变量和随机试验间有什么关系
- (3) 划分连续型随机变量和离散型随机变量的依据。
- (4)变量独立和不相关的区别
- (5) 常见分布的分布函数/概率密度函数,以及分布的特性,如指数分布的无记忆性。:smile:
- (6) 协方差和相关系数的区别
- (7) 随机变量常用特征的解释(期望,方差等)。
- (8) 中位数是否等于期望。
- (9) 常见分布的期望和方差是什么?
- (10)如何给没有学过统计学的人解释正态分布。
- (11) 列举常用的大数定律及其区别。
- (12) 简述中心极限定理。
- (13) 简单简述假设检验的原理。
- (14) 简述假设检验的两类错误。
- (15) 如何平衡这两类错误?
- (16) 简述假设检验中的p-value、显著性水平、置信度、检验效能。
- [(17) 分别解释z检验和t检验](https://zhuanlan.zhihu.com/p/49468324)
- (18) 贝叶斯派统计和频率派统计的区别
- [(19) 贝叶斯定理和全概率公式的应用](https://zhuanlan.zhihu.com/p/78297343)
- [(20) 用贝叶斯定理解释”三门问题“。](https://www.zhihu.com/question/26709273/answer/215247275)
- 1.1.2 数据挖掘:
- (1)数据集的划分方式,以及各种数据集的作用。
- (2)简述欠拟合和过拟合,并解释产生的原因以及解决方案。
- (3)选择更加复杂的模型进行调参是否能有更好的结果?
- (4)常用的模型分类方法,以及其中重要的模型(监督/非监督、参数/非参数等)有哪些。
- (5)阐述参数模型和非参数模型的区别及各自优缺点。
- (6)简单介绍生产模型和判别模型的概念。
- (7)模型中参数和超参数的区别。
- (8) 常见的模型介绍
- 1.线性回归模型
- Q_1:在线性回归模型中对随机误差做出的假设有哪些?
- Q_2:线性回归模型有哪些常用的提升效果的方法?
- Q_3:简述线性回归模型的优缺点。
- 2.逻辑回归模型
- Q_1:逻辑回归模型与线性回归模型的区别是什么?:smile:
- Q_2:在逻辑回归模型中常用的L1与L2方法的区别在哪里?
- Q_3:简述逻辑回归模型的优缺点。:smiling_imp:
- 3.决策树模型
- Q_1:如何确定每一个节点选择什么特征,其常用方法及各自特点是什么?
- Q_3:简述ID3和C4.5方法的异同点。
- Q_4:简述决策树模型的优缺点。
- 4.随机森林
- Q_1:强学习器和弱学习器的定义以及划分的依据是什么?:smiley:
- Q_2:解释模型集成和模型融合的概念,并举出相应的例子。
- Q_3:解释随机森林的基本原理。
- Q_4:相比于决策树模型,随机森林模型为何能实现更好的效果?
- 5.Boosting模型
- Q_1:阐述随机森林模型与Boosting模型之间的区别。
- Q_2:常见的基于决策树模型的Boosting方法及各自原理是什么?
- Q_3:简述随机森林模型和GBDT模型的优缺点。
- 6.XGBoost模型
- Q_1:简述XGBoost基于GBDT模型优化的原因。
- Q_2:简述XGBoost的并行操作。
- (9) 模型效果评估方法
- Q_1:对于预测问题常用的评估方法有哪些?
- Q_2:对于二分类问题常用的评估方法有哪些?
- Q_3:解释准确率和召回率。
- Q_4:简要解释正确率,并阐述正确率与准确率的区别。
- Q_5:用简洁的语言或者举例解释准确率和召回率。
- Q_6:简单介绍ROC与AUC的概念及相互之间的关联。
- Q_7:多分类问题的评估方法有哪些?
- 1.2 编程能力考查:smile:
- 1.3 实战项目考查
- 第5章 数据分析师实战技能
- 5.1 数据分析师工作必备技能
- 5.1.1 数据人员如何创造价值
- 5.1.2 完整的指标体系构建
- Q_1:要构建一套指标体系,整体思路是什么?
- Q_2:用户行为的核心节点有哪些?如何有针对性地设计指标?
- Q_4:对于活跃用户,应该如何进行相应的指标设计及路径分析?
- Q_5:有了明确的用户行为路径及相关指标后,如何进一步分析?
- Q_6:针对时间维度的分析,需要注意的点有哪些?
- Q_7:列举常用的用户维度拓展方法。
- Q_8:×××最近有所下降,如何进行分析?
- 5.1.3 数据监控集报表设计
- Q_1:现在需要监控数据并设计相应的报表,应该考虑哪些问题?
- Q_2:如何避免在报表中简单地罗列数字,提高信息量?
- Q_3:常用的报表输出方式有哪些?
- Q_4:针对不同的人群,如何设计相应的报表?:dog2:
- 5.1.4 设计一份优质的数据分析报告
- Q_1:如何提高数据分析报告的质量?
- 5.2 基于互联网大数据的应用
- 5.2.1 A B 测试
- Q_1:简述AB测试。
- Q_2:介绍常用的AB测试的分组方法。
- Q_3:面对多个试验并行的情况,如何保证分组的合理性?
- Q_4:如何充分证明AB测试分组的随机性?
- Q_5:简述AB测试背后的理论支撑。
- Q_6:如何通过AB测试证明新版本用户的转化率高于老版本用户的转化率?
- Q_7:当\bar x \ >\bar y \ 时,在什么条件下可以推翻原假设?
- Q_8:为了规避第二类错误,样本量要达到什么程度?
- 5.2.2 用户画像
- Q_1:用户画像的数据源有哪些?
- Q_2 :获取到用户画像数据后,如何加工呢?
- Q_3:如何利用标签池中的数据,根据用户画像进行相应的分析?
- 5.2.3 完整的数据挖掘项目流程
- Q_1:在建模之前,需要从哪些方面分析可行性?
- Q_2:常见的变量分类方法有哪些?
- Q_3:在数据挖掘项目中特征工程包括哪些方面?
- Q_4:在模型上线前以及上线后,都需要做哪些工作?
- Q_4:在模型上线前以及上线后,都需要做哪些工作?
- 参考
前言
md格式导入图片会失败
这里可以GitHub查看完整版的(有图片,清晰明了)
GitHub链接 可以给星或这里的赞
1.常见的数据分析师的面试问题
1.1 基础知识考查
1.1.1概率论与数理统计:
(1)用简洁的话语简述随机变量的含义。
随机变量就是一个随机的数,它是对任何的“随机的东西”做的量化。
(2) 随机变量和随机试验间有什么关系
- **随机试验:**相同条件下对某随机现象进行的大量重复观测的试验,如掷硬币100次统计正面朝上的次数
- **随机变量:**是用来描述随机试验结果的。
(3) 划分连续型随机变量和离散型随机变量的依据。
- **离散型随机变量:**随机变量X能被一一列举出来,如一批产品中次品的数量,某地区人口的出生数等。
- **连续型随机变量:**随机变量X不能被一一列举出来,如一批电子元器件的寿命,身高、体重等。
在于所描述的随机试验所有可能的结果数量是否可数
(4)变量独立和不相关的区别
若X和Y不相关,通常认为X和Y之间是没有线性关系,但不排除没有其他关系
若X和Y独立,是没有关系,互不干扰
因此,“不相关”是一个比“独立”要弱的概念