首页 > 其他分享 >数据统计分析 — 泊松分布

数据统计分析 — 泊松分布

时间:2023-10-27 16:58:40浏览次数:38  
标签:泊松 概率 统计分析 分布 二项分布 样本量 包子

在一指定时间范围内或在指定的面积或体积内某一事件出现的次数的分布,他们对应的随机变量的概率服从的分布叫做泊松分布,泊松分布是二项分布的极限

例如:

  • 某企业中每月某设备出现故障的次数
  • 单位时间内到达某一服务台需要服务的顾客人数

举个例子

小王的婶婶新开了一个包子铺,生意还不错,但是有一天小王去买包子,看见婶婶一筹莫展,问其原因,原来是因为包子铺6点-10点营业,这一周头有两天包子蒸少了,不到8点就卖完了,后来吸取教训蒸多了,又因为卖不完而不新鲜了,早上6点-10点到底蒸多少包子合适呢?

还好小王学过统计学,婶婶把馒头数据简单假设如下:
image

我们想一想,首先能不能用均值,我们算一下平均数
image
如果按照平均数,则5天中有2天都供不应求,这个不太合适
image

这可该怎么办?

我们换个思路,包子在6点-10点之间,每个包子的命运只有两个结果,要么卖出了,要么没卖出,那我们可以把6点-10点这个时间段当成一条有长度的线,假设分成20等份,假设每个时间段上放一个包子,要么卖出去了,要么没卖出去,类似于抛8次硬币,要么出现正面,要么出现反面,我们计算一下,卖出去7个包子的概率,利用二项分布公式

image
如果我们把时间段分成n等份,则卖出7个包子的概率为
image

运用极限,把时间段分的越细越好,并计算在这个时间段内卖出 k 个馒头的概率为:
image
对于这个p该怎么计算呢?
我们知道它服从二项分布,二项分布的期望为np,则
image
因此
image

推导过程(了解就行):
image
image
假设每天准备65个包子,μ在这里可以直接使用均值50来计算,最后得出

概率为98.2%,其实大部分时候我们基本能满足每天的需求,因为数据量小,所有可能实际意义不是很明显,这里只是为了教学参考。

Excel使用Poisson.dist函数计算结果:
image
函数介绍
=POISSON.DIST(65,B8,TRUE)
POISSON.DIST(x,mean,cumulative)

OISSON.DIST 函数语法具有下列参数:

  • X 必需。 事件数。
  • Mean 必需。 期望值。
  • cumulative 必需。 一逻辑值,确定所返回的概率分布的形式。 如果 cumulative 为 TRUE,则 POISSON.DIST 返回发生的随机事件数在零(含零)和 x(含 x)之间的累积泊松概率;如果为 FALSE,则 POISSON 返回发生的事件数正好是 x 的泊松概率密度函数。

泊松分布是二项分布的极限

在n重伯努利实验中,当成功的概率很小,实验次数很大时,二项分布可近似等于泊松分布

在实际应用中,当p<=0.25,n>20,np<=25时,用泊松分布近似二项分布的效果良好
image

连续型随机变量的概率分布
德国的高斯
image
法国的拉普拉斯
image
回到最开始的业务场景

通过统计描述,分析师已经了解了配件A过去的日消耗量波动情况,现希望基于历史数据设定库存控制线,要求该库存量能够保证99%的使用日不会出现库存断货情况。

该怎么办呢?

控制线设置成均数可以吗?

肯定是不可以的,因为均值只是代表一般水平,换句话说,有大概一半的数据在均数以下,有一半在以上,如果把均数设置为库存控制线,最多也就只能满足50%左右的使用日不会出现库存断货情况

如果使用百分位数呢?

计算P99位置的数值,这样理论是可以的,但是百分位数对于样本量比较大的数据集才具有意义,样本量太小,实际意义不大

举个例子:零件日消耗量分布从1-100,我们随机抽取50个样本,计算P99,要求这个值要大于99%的日消耗,假设这个样本数据的最大值是80,比这个数小的是78,最终我们计算出来的是78,显然跟100差的很远,这个数据拿到实际应用中,是不满足要求的,因为样本量少造成的误差太大的缘故。

那该怎么办?
那就用到接下来要讲的内容
从频数分布到概率分布
image

那我们来分析一下
直方图/频率图的性质
直条的面积实质上就是频率(或者百分比)
面积=直条高度X宽度(组距) = 频率
因此直条的面积相加等于1
当样本量越来越大,频率(面积) 趋向概率
并且组距越来越小时,直方条的顶缩成点并且各个直方条的顶连接成一条曲线,这条曲线就是 概率密度分布曲线
概率密度的概念和固体的密度基本类似
哪个地方的概率大说明密度就大
image
这就是正态分布

标签:泊松,概率,统计分析,分布,二项分布,样本量,包子
From: https://www.cnblogs.com/vipsoft/p/17792706.html

相关文章

  • [26章]Java主流分布式解决方案多场景设计与实战
    点击下载:[26章]Java主流分布式解决方案多场景设计与实战 提取码:q5p5 Java主流分布式解决方案多场景设计与实战课程,计划26章,同步更新中。随着互联网数据井喷式的发展,分布式技术应运而生。分布式因其高性能、高可用、高扩展的特点,成为微服务项目的基石。本课程针对分布式六大主流问......
  • R语言具有Student-t分布改进的GARCH(1,1)模型的贝叶斯估计|附代码数据
    最近我们被客户要求撰写关于GARCH的研究报告,包括一些图形和统计输出。本说明介绍了具有Student-t改进的GARCH(1,1)模型的贝叶斯估计方法介绍摘要本说明介绍使用Student-t改进的GARCH(1,1)模型对汇率对数收益进行贝叶斯估计。自Engle(1982)的开创性论文以来,使用时间序列模型改变波动率的......
  • 分布式链路追踪系统zipkin【杭州多测师_王sir】
    一、部署zipkin环境的方式==》1.docker  2、java-jar   3、运行源码二、分别可以在Linux系统和Windows系统里面运行zipkin三、在地址栏输入:http://127.0.0.1:9411四、zipkin的流程图由上图可以看出,应用的代码(User Code)发起 Http Get 请求(请求路径 /foo),经过 Zipkin......
  • Kafka 在分布式系统中的 7 大应用场景
    Kafka介绍Kafka是一个开源的分布式流式平台,它可以处理大量的实时数据,并提供高吞吐量,低延迟,高可靠性和高可扩展性。Kafka的核心组件包括生产者(Producer),消费者(Consumer),主题(Topic),分区(Partition),副本(Replica),日志(Log),偏移量(Offset)和代理(Broker)。Kafka的主要特点有:数据磁盘持久化:Ka......
  • LoadRunner分布式负载(多机器)
    首先调用的负载机器可以没有LoadRunner,但是必须要有AgentConfiguration:全部勾选在LoadRunnerUser的脚本中的接口调用必须使用ip,不能使用localhost。打开Controller: 添加负载机:测试连接:ready打钩表示连接通了。 点击菜单栏的scenario --> Convertscenarioto......
  • 分布式操作系统的必要性及重要性
     总有人在各个平台留言或者私信问LAXCUS分布式操作系统的各种问题,尤其是关于分布式操作系统的应用市场、价值、意义之类的问题。我们团队做LAXCUS分布式操作系统,也不是头脑凭空发热,是基于我们之前的大量产品设计、经验逐渐一步步做起来。当今已经进入智能时代,也是算力时代,人工智......
  • 利用 zookeeper 的分布式锁实现秒杀
    常见的业务场景:x年x月x日x点x分x秒,限时抢购10件商品。前提:分布式的环境,多用户高并发访问。依赖的jar包<projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0htt......
  • 分布式系统分析
    什么是分布式系统分布式系统是支持分布式处理的软件系统,是由通信网络互联的多处理机体系结构上执行任务的系统。一个业务拆分为多个子业务,落地成不同的服务,将各个服务部署在不同的容器上。各个服务之间通过某种协议通信交互。好处是有更好的可靠性,可扩展性,但也带来了一致性问题......
  • Redisson分布式锁主从一致性问题解决
    Redis联锁联锁(RedissonMultiLock)对象可以将多个RLock对象关联为一个联锁,实现加锁和解锁功能。每个RLock对象实例可以来自于不同的Redisson实例。如果负责储存分布式锁的某些Redis节点宕机以后,而且这些锁正好处于锁住状态,就会出现死锁问题。为了避免这种情况的发生,Redisson内部提供......
  • 数据统计分析 — 统计学的几个概念
    变量分类变量无序分类变量说明事物类别的一个名称,如:性别有男女两种,二者无大小之分,无顺序之分,还有如血型、民族等有序分类变量也是说明事物类型的一个名称,但是有次序之分,例如:满意度分为满意一般不满意,三者是有顺序的,但是无大小之分数值型变量连续型变量取值范围是......