首页 > 其他分享 >常见的数据分析师的面试问题 完整文件放在GitHub链接上了!!!擅用crtl + F

常见的数据分析师的面试问题 完整文件放在GitHub链接上了!!!擅用crtl + F

时间:2022-12-25 21:02:10浏览次数:58  
标签:GitHub 擅用 crtl 模型 用户 需要 进行 数据 决策树


文章目录

  • ​​前言​​
  • ​​1.常见的数据分析师的面试问题​​
  • ​​1.1 基础知识考查​​
  • ​​**1.1.1概率论与数理统计:**​​
  • ​​(1)用简洁的话语简述**随机变量**的含义。​​
  • ​​(2) 随机变量和随机试验间有什么关系​​
  • ​​(3) 划分连续型随机变量和离散型随机变量的依据。​​
  • ​​(4)变量独立和不相关的区别​​
  • ​​(5) 常见分布的分布函数/概率密度函数,以及分布的特性,如指数分布的无记忆性。:smile:​​
  • ​​(6) 协方差和相关系数的区别​​
  • ​​(7) 随机变量常用特征的解释(期望,方差等)。​​
  • ​​(8) 中位数是否等于期望。​​
  • ​​(9) 常见分布的期望和方差是什么?​​
  • ​​(10)如何给没有学过统计学的人解释正态分布。​​
  • ​​(11) 列举常用的大数定律及其区别。​​
  • ​​(12) 简述中心极限定理。​​
  • ​​(13) 简单简述假设检验的原理。​​
  • ​​(14) 简述假设检验的两类错误。​​
  • ​​(15) 如何平衡这两类错误?​​
  • ​​(16) 简述假设检验中的p-value、显著性水平、置信度、检验效能。​​
  • ​​[(17) 分别解释z检验和t检验](https://zhuanlan.zhihu.com/p/49468324)​​
  • ​​(18) 贝叶斯派统计和频率派统计的区别​​
  • ​​[(19) 贝叶斯定理和全概率公式的应用](https://zhuanlan.zhihu.com/p/78297343)​​
  • ​​[(20) 用贝叶斯定理解释”三门问题“。](https://www.zhihu.com/question/26709273/answer/215247275)​​
  • ​​1.1.2 数据挖掘:​​
  • ​​(1)数据集的划分方式,以及各种数据集的作用。​​
  • ​​(2)简述欠拟合和过拟合,并解释产生的原因以及解决方案。​​
  • ​​(3)选择更加复杂的模型进行调参是否能有更好的结果?​​
  • ​​(4)常用的模型分类方法,以及其中重要的模型(监督/非监督、参数/非参数等)有哪些。​​
  • ​​(5)阐述参数模型和非参数模型的区别及各自优缺点。​​
  • ​​(6)简单介绍生产模型和判别模型的概念。​​
  • ​​(7)模型中参数和超参数的区别。​​
  • ​​(8) 常见的模型介绍​​
  • ​​1.线性回归模型​​
  • ​​Q_1:在线性回归模型中对随机误差做出的假设有哪些?​​
  • ​​Q_2:线性回归模型有哪些常用的提升效果的方法?​​
  • ​​Q_3:简述线性回归模型的优缺点。​​
  • ​​2.逻辑回归模型​​
  • ​​Q_1:逻辑回归模型与线性回归模型的区别是什么?:smile:​​
  • ​​Q_2:在逻辑回归模型中常用的L1与L2方法的区别在哪里?​​
  • ​​Q_3:简述逻辑回归模型的优缺点。:smiling_imp:​​
  • ​​3.决策树模型​​
  • ​​Q_1:如何确定每一个节点选择什么特征,其常用方法及各自特点是什么?​​
  • ​​Q_3:简述ID3和C4.5方法的异同点。​​
  • ​​Q_4:简述决策树模型的优缺点。​​
  • ​​4.随机森林​​
  • ​​Q_1:强学习器和弱学习器的定义以及划分的依据是什么?:smiley:​​
  • ​​Q_2:解释模型集成和模型融合的概念,并举出相应的例子。​​
  • ​​Q_3:解释随机森林的基本原理。​​
  • ​​Q_4:相比于决策树模型,随机森林模型为何能实现更好的效果?​​
  • ​​5.Boosting模型​​
  • ​​Q_1:阐述随机森林模型与Boosting模型之间的区别。​​
  • ​​Q_2:常见的基于决策树模型的Boosting方法及各自原理是什么?​​
  • ​​Q_3:简述随机森林模型和GBDT模型的优缺点。​​
  • ​​6.XGBoost模型​​
  • ​​Q_1:简述XGBoost基于GBDT模型优化的原因。​​
  • ​​Q_2:简述XGBoost的并行操作。​​
  • ​​(9) 模型效果评估方法​​
  • ​​Q_1:对于预测问题常用的评估方法有哪些?​​
  • ​​Q_2:对于二分类问题常用的评估方法有哪些?​​
  • ​​Q_3:解释准确率和召回率。​​
  • ​​Q_4:简要解释正确率,并阐述正确率与准确率的区别。​​
  • ​​Q_5:用简洁的语言或者举例解释准确率和召回率。​​
  • ​​Q_6:简单介绍ROC与AUC的概念及相互之间的关联。​​
  • ​​Q_7:多分类问题的评估方法有哪些?​​
  • ​​1.2 编程能力考查:smile:​​
  • ​​1.3 实战项目考查​​
  • ​​第5章 数据分析师实战技能​​
  • ​​5.1 数据分析师工作必备技能​​
  • ​​5.1.1 数据人员如何创造价值​​
  • ​​5.1.2 完整的指标体系构建​​
  • ​​Q_1:要构建一套指标体系,整体思路是什么?​​
  • ​​Q_2:用户行为的核心节点有哪些?如何有针对性地设计指标?​​
  • ​​Q_4:对于活跃用户,应该如何进行相应的指标设计及路径分析?​​
  • ​​Q_5:有了明确的用户行为路径及相关指标后,如何进一步分析?​​
  • ​​Q_6:针对时间维度的分析,需要注意的点有哪些?​​
  • ​​Q_7:列举常用的用户维度拓展方法。​​
  • ​​Q_8:×××最近有所下降,如何进行分析?​​
  • ​​5.1.3 数据监控集报表设计​​
  • ​​Q_1:现在需要监控数据并设计相应的报表,应该考虑哪些问题?​​
  • ​​Q_2:如何避免在报表中简单地罗列数字,提高信息量?​​
  • ​​Q_3:常用的报表输出方式有哪些?​​
  • ​​Q_4:针对不同的人群,如何设计相应的报表?:dog2:​​
  • ​​5.1.4 设计一份优质的数据分析报告​​
  • ​​Q_1:如何提高数据分析报告的质量?​​
  • ​​5.2 基于互联网大数据的应用​​
  • ​​5.2.1 A B 测试​​
  • ​​Q_1:简述AB测试。​​
  • ​​Q_2:介绍常用的AB测试的分组方法。​​
  • ​​Q_3:面对多个试验并行的情况,如何保证分组的合理性?​​
  • ​​Q_4:如何充分证明AB测试分组的随机性?​​
  • ​​Q_5:简述AB测试背后的理论支撑。​​
  • ​​Q_6:如何通过AB测试证明新版本用户的转化率高于老版本用户的转化率?​​
  • ​​Q_7:当\bar x \ >\bar y \ 时,在什么条件下可以推翻原假设?​​
  • ​​Q_8:为了规避第二类错误,样本量要达到什么程度?​​
  • ​​5.2.2 用户画像​​
  • ​​Q_1:用户画像的数据源有哪些?​​
  • ​​Q_2 :获取到用户画像数据后,如何加工呢?​​
  • ​​Q_3:如何利用标签池中的数据,根据用户画像进行相应的分析?​​
  • ​​5.2.3 完整的数据挖掘项目流程​​
  • ​​Q_1:在建模之前,需要从哪些方面分析可行性?​​
  • ​​Q_2:常见的变量分类方法有哪些?​​
  • ​​Q_3:在数据挖掘项目中特征工程包括哪些方面?​​
  • ​​Q_4:在模型上线前以及上线后,都需要做哪些工作?​​
  • ​​Q_4:在模型上线前以及上线后,都需要做哪些工作?​​
  • ​​参考​​

前言

md格式导入图片会失败

这里可以GitHub查看完整版的(有图片,清晰明了)

​GitHub链接​​ 可以给星或这里的赞

常见的数据分析师的面试问题 完整文件放在GitHub链接上了!!!擅用crtl + F_线性回归

1.常见的数据分析师的面试问题

1.1 基础知识考查

1.1.1概率论与数理统计:

(1)用简洁的话语简述随机变量的含义。

随机变量就是一个随机的数,它是对任何的“随机的东西”做的量化。

(2) 随机变量和随机试验间有什么关系
  • **随机试验:**相同条件下对某随机现象进行的大量重复观测的试验,如掷硬币100次统计正面朝上的次数
  • **随机变量:**是用来描述随机试验结果的。
(3) 划分连续型随机变量和离散型随机变量的依据。
  • **离散型随机变量:**随机变量X能被一一列举出来,如一批产品中次品的数量,某地区人口的出生数等。
  • **连续型随机变量:**随机变量X不能被一一列举出来,如一批电子元器件的寿命,身高、体重等。

在于所描述的随机试验所有可能的结果数量是否可数

(4)变量独立和不相关的区别

若X和Y不相关,通常认为X和Y之间是没有线性关系,但不排除没有其他关系

若X和Y独立,是没有关系,互不干扰

因此,“不相关”是一个比“独立”要弱的概念

(5) 常见分布的分布函数/概率密度函数,以及分布的特性,如指数分布的无记忆性。

标签:GitHub,擅用,crtl,模型,用户,需要,进行,数据,决策树
From: https://blog.51cto.com/u_15796263/5968359

相关文章

  • GitHub实用开源项目
    第一款JSONCrack JSONCrack是一个很方便的JSON数据可视化工具。该项目不是简单的展示JSON数据,而是将其转化为类似思维导图的形式,支持放大/缩小、展开/收缩、......
  • github 的 SSH keys 过期解决
    以SSH方式gitclone在github上的仓库时,报错:[email protected]:cag2050/counter-app.gitCloninginto'counter-app'...ssh:connecttohostgithub.com......
  • github pages官方资料限制空间最大1G
    githubpages官方资料限制空间最大1G 但是目前我的空间已经突破5G也没看到有任何限制的趋势。】目前编译一次就是比较慢,大概需要50分钟了。    ......
  • Git & Github & Gitee
    Git学习一、认识Git1、什么是Gitgit是一个分布式版本控制软件,最初由林纳斯·托瓦兹(LinusTorvalds)创作,于2005年以GPL发布。最初目的是为更好地管理Linux内核开发而设计。2......
  • 博客永久搬家,新地址 lmmsoft.github.io
    搬家原因:审查风险大+国内的博客网站不够稳定新地址:https://lmmsoft.github.io/  RSS订阅: https://lmmsoft.github.io/feed.xml欢迎访问!......
  • 通过GitHub和阿里云自定义域名实现https认证
    在GitHub中的操作登录GitHub,点击“Yourrepositories”,进入个人仓库页面;点击“new“,进入新建仓库页面;仓库名称填写<username>.github.io,<username>就是GitHub的账......
  • 创建自己的github博客
    ​​https://deligencc.github.io/​​hexo.利用这些静态博客生成器我们可以方便的在本地写博客,然后上传github进行浏览,这些生成器的原理也很简单,就是需要什么网页,......
  • github
    创建仓库,提交代码第一步,配置密钥生成密钥命令:ssh-keygen-trsa密钥地址:C:\Users\Code617\.ssh   需要把公钥配置到github上 ......
  • go-Typora-Sqoosh-图像压缩-Github-图床
    go-Typora-Sqoosh-图像压缩-Github-图床SquooshGoogleChromeLabs/squoosh:Makeimagessmallerusingbest-in-classcodecs,rightinthebrowser.(github.com)htt......
  • 利用GitHub Actions实现将GitHub代码同步到Gitee
    利用GithubAction实现将Github上面的代码同步到Gitee中同步的原理是利用SSH公私钥配对的方式拉取Github仓库的代码并推送到Gitee仓库中,所以我们需要以下几个......