详细地址:data100Lecture2
1. 引
1.1 图表的使用
两张图片基于相同数据生成,但是表达的意思、想突出的重点完全不一样
1.2 数据科学生命周期
上图是数据科学生命周期,这节课就将如何收集数据
2. 人口普查和调查
- 可能会有许多误差,有的人无家可归等等,需要理解数据
3. 取样:定义
- A sample is a subset of the population.样本通常用于推断群体。
- 常见的两种误差:
- 偶然误差:随机样本可能 在任何方向上都可能与预期不同。
- 偏差:一个方向上的系统误差。
无论使用什么方法取样,所推断的结果与实际总有偏差
- sampling frame:抽样框架,即从中抽样的名单,最终可能出现在样本中的人的集合
- sample:实际抽取的样本
4. 偏差:案例研究
- 选择偏差
- 系统地排除(或偏袒)特定群体。
- 如何避免?检查抽样框架和抽样方法。
- 回应偏差
- 人们的回答并不总是真实的。
- 如何避免?检查问题的性质和调查方法。
- 非响应偏差
- 人们并不总是做出回应。
- 如何避免?调查要简短,要坚持不懈。
- 不回复的人和回复的人不一样!