在一指定时间范围内或在指定的面积或体积内某一事件出现的次数的分布,他们对应的随机变量的概率服从的分布叫做泊松分布,泊松分布是二项分布的极限
例如:
- 某企业中每月某设备出现故障的次数
- 单位时间内到达某一服务台需要服务的顾客人数
举个例子
小王的婶婶新开了一个包子铺,生意还不错,但是有一天小王去买包子,看见婶婶一筹莫展,问其原因,原来是因为包子铺6点-10点营业,这一周头有两天包子蒸少了,不到8点就卖完了,后来吸取教训蒸多了,又因为卖不完而不新鲜了,早上6点-10点到底蒸多少包子合适呢?
还好小王学过统计学,婶婶把馒头数据简单假设如下:
我们想一想,首先能不能用均值,我们算一下平均数
如果按照平均数,则5天中有2天都供不应求,这个不太合适
这可该怎么办?
我们换个思路,包子在6点-10点之间,每个包子的命运只有两个结果,要么卖出了,要么没卖出,那我们可以把6点-10点这个时间段当成一条有长度的线,假设分成20等份,假设每个时间段上放一个包子,要么卖出去了,要么没卖出去,类似于抛8次硬币,要么出现正面,要么出现反面,我们计算一下,卖出去7个包子的概率,利用二项分布公式
如果我们把时间段分成n等份,则卖出7个包子的概率为
运用极限,把时间段分的越细越好,并计算在这个时间段内卖出 k 个馒头的概率为:
对于这个p该怎么计算呢?
我们知道它服从二项分布,二项分布的期望为np,则
因此
推导过程(了解就行):
假设每天准备65个包子,μ在这里可以直接使用均值50来计算,最后得出
概率为98.2%,其实大部分时候我们基本能满足每天的需求,因为数据量小,所有可能实际意义不是很明显,这里只是为了教学参考。
Excel使用Poisson.dist函数计算结果:
函数介绍
=POISSON.DIST(65,B8,TRUE)
POISSON.DIST(x,mean,cumulative)
OISSON.DIST 函数语法具有下列参数:
- X 必需。 事件数。
- Mean 必需。 期望值。
- cumulative 必需。 一逻辑值,确定所返回的概率分布的形式。 如果 cumulative 为 TRUE,则 POISSON.DIST 返回发生的随机事件数在零(含零)和 x(含 x)之间的累积泊松概率;如果为 FALSE,则 POISSON 返回发生的事件数正好是 x 的泊松概率密度函数。
泊松分布是二项分布的极限
在n重伯努利实验中,当成功的概率很小,实验次数很大时,二项分布可近似等于泊松分布
在实际应用中,当p<=0.25,n>20,np<=25时,用泊松分布近似二项分布的效果良好
连续型随机变量的概率分布
德国的高斯
法国的拉普拉斯
回到最开始的业务场景
通过统计描述,分析师已经了解了配件A过去的日消耗量波动情况,现希望基于历史数据设定库存控制线,要求该库存量能够保证99%的使用日不会出现库存断货情况。
该怎么办呢?
控制线设置成均数可以吗?
肯定是不可以的,因为均值只是代表一般水平,换句话说,有大概一半的数据在均数以下,有一半在以上,如果把均数设置为库存控制线,最多也就只能满足50%左右的使用日不会出现库存断货情况
如果使用百分位数呢?
计算P99位置的数值,这样理论是可以的,但是百分位数对于样本量比较大的数据集才具有意义,样本量太小,实际意义不大
举个例子:零件日消耗量分布从1-100,我们随机抽取50个样本,计算P99,要求这个值要大于99%的日消耗,假设这个样本数据的最大值是80,比这个数小的是78,最终我们计算出来的是78,显然跟100差的很远,这个数据拿到实际应用中,是不满足要求的,因为样本量少造成的误差太大的缘故。
那该怎么办?
那就用到接下来要讲的内容
从频数分布到概率分布
那我们来分析一下
直方图/频率图的性质
直条的面积实质上就是频率(或者百分比)
面积=直条高度X宽度(组距) = 频率
因此直条的面积相加等于1
当样本量越来越大,频率(面积) 趋向概率
并且组距越来越小时,直方条的顶缩成点并且各个直方条的顶连接成一条曲线,这条曲线就是 概率密度分布曲线
概率密度的概念和固体的密度基本类似
哪个地方的概率大说明密度就大
这就是正态分布