NumPy 二项分布生成与 Seaborn 可视化技巧

时间：2024-05-27 20:43:54浏览次数：35

标签：Seaborn data 次数 binomial 二项分布 np import NumPy

二项分布

简介

二项分布是一种离散概率分布，用于描述在固定次数的独立试验中，事件“成功”的次数的概率分布。它通常用于分析诸如抛硬币、做选择题等具有两个结果（成功或失败）的事件。

参数

二项分布用三个参数来定义：

n：试验次数，表示重复相同实验的次数。
p：每次试验中成功事件发生的概率。
k：成功事件发生的次数，范围为 0 到 n。

公式

二项分布的概率质量函数 (PMF) 给出了在 n 次试验中恰好获得 k 次成功的概率，计算公式为：

P(k) = C(n, k) p^k (1 - p)^(n - k)

其中：

C(n, k) 是组合数，表示从 n 个元素中选取 k 个元素的方案数。
p^k 表示 k 次成功的概率。
(1 - p)^(n - k) 表示 n - k 次失败的概率。

生成二项分布数据

NumPy 提供了 random.binomial() 函数来生成服从二项分布的随机数。该函数接受以下参数：

n：试验次数。
p：每次试验中成功事件发生的概率。
size：输出数组的形状。

示例：生成 10 次试验中，每次成功概率为 0.5 的事件的成功次数：

import numpy as np

data = np.random.binomial(n=10, p=0.5, size=10)
print(data)

可视化二项分布

Seaborn 库提供了便捷的函数来可视化分布，包括二项分布。

示例：绘制 100 次试验中，每次成功概率为 0.6 的事件的成功次数分布：

import seaborn as sns
import numpy as np

data = np.random.binomial(n=100, p=0.6, size=1000)
sns.distplot(data)
plt.show()

正态分布与二项分布的关系

当试验次数 n 很大，成功概率 p 接近 0.5 时，二项分布可以近似为正态分布。其均值 μ 为 np，标准差 σ 为 sqrt(np(1 - p))。

示例：比较二项分布和正态分布的形状：

import seaborn as sns
import numpy as np

n = 100
p = 0.5

# 生成二项分布数据
data_binomial = np.random.binomial(n=n, p=p, size=1000)

# 生成正态分布数据
mu = n p
sigma = np.sqrt(n p (1 - p))
data_normal = np.random.normal(loc=mu, scale=sigma, size=1000)

sns.distplot(data_binomial, label="Binomial")
sns.distplot(data_normal, label="Normal")
plt.legend()
plt.show()

练习

在 50 次试验中，每次成功概率为 0.2 的事件，模拟成功次数并绘制分布图。
比较不同试验次数下二项分布形状的变化。
利用二项分布来模拟一次 10 道选择题的考试，每题答对的概率为 0.7，并计算平均分和及格率（60 分及格）。

解决方案

import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

# 1. 模拟成功次数并绘制分布图
data = np.random.binomial(n=50, p=0.2, size=1000)
sns.distplot(data)
plt.show()

# 2. 比较不同试验次数下二项分布形状的变化
n_values = [10, 50, 100, 500]
for n in n_values:
    data = np.random.binomial(n=n, p=0.5, size=1000)
    sns.distplot(data, label=f"n={n}")
plt.legend()
plt.show()

# 3. 模拟考试成绩并计算平均分和及格率
scores

最后

为了方便其他设备和平台的小伙伴观看往期文章：

微信公众号搜索：Let us Coding，关注后即可获取最新文章推送

看完如果觉得有帮助，欢迎点赞、收藏、关注

标签：Seaborn,data,次数,binomial,二项分布,np,import,NumPy
From： https://www.cnblogs.com/xiaowange/p/18216487

NumPy 正态分布与 Seaborn 可视化指南
正态分布（高斯分布）简介正态分布（也称为高斯分布）是一种非常重要的概率分布，它描述了许多自然和人为现象的数据分布情况。正态分布的形状呈钟形，其峰值位于平均值处，两侧对称下降。特征正态分布可以用两个参数来完全描述：均值（μ）：表示数据的平均值，分布的峰值位于μ处。标准差（σ）：表示......
NumPy 随机数据分布与 Seaborn 可视化详解
随机数据分布什么是数据分布？数据分布是指数据集中所有可能值出现的频率，并用概率来表示。它描述了数据取值的可能性。在统计学和数据科学中，数据分布是分析数据的重要基础。NumPy中的随机分布NumPy的random模块提供了多种方法来生成服从不同分布的随机数。生成离散分布随......
NumPy 数组排序、过滤与随机数生成详解
NumPy数组排序排序数组排序数组意味着将元素按特定顺序排列。顺序可以是数字大小、字母顺序、升序或降序等。NumPy的ndarray对象提供了一个名为sort()的函数，用于对数组进行排序。示例：importnumpyasnparr=np.array([3,2,0,1])print(np.sort(arr))输出：[0......
如何利用 Seaborn 实现高级统计图表
本文分享自华为云社区《使用Seaborn实现高级统计图表从箱线图到多变量关系探索》，作者：柠檬味拥抱。在数据科学和数据可视化领域，Seaborn是一个备受欢迎的Python可视化库。它建立在Matplotlib的基础之上，提供了更简洁、更美观的图形界面，同时也具备了一些高级统计图表的功能。......
Python数据分析numpy、pandas、matplotlib包
Python数据分析numpy、pandas、matplotlib一、基础1.1notebook的一些配置快捷键：ctrl+enter执行单元格程序并且不跳转到下一行esc+L可以显示行号结果是打印的而没有返回任何的值就没有out1.2列表基础知识回顾b=[1,2.3,'a','b']b#列表中的元素允许各个元素不一样......
NumPy 分割与搜索数组详解
NumPy分割数组NumPy提供了np.array_split()函数来分割数组，将一个数组拆分成多个较小的子数组。基本用法语法：np.array_split(array,indices_or_sections,axis=None)array：要分割的NumPy数组。indices_or_sections：指定分割位置的整数列表或要包含每个子数组的元素数......
NumPy 数组复制与视图详解
NumPy数组的复制与视图NumPy数组的复制和视图是两种不同的方式来创建新数组，它们之间存在着重要的区别。复制复制会创建一个包含原始数组相同元素的新数组，但这两个数组拥有独立的内存空间。这意味着对复制进行的任何更改都不会影响原始数组，反之亦然。创建副本可以使用以下方......
机器学习包keras skiti-learn tensorflow pytorh yolov6 tensorboad seaborn numpy p
这些是一些常用的Python库和框架，它们在机器学习、深度学习、数据科学和可视化等领域中被广泛使用。下面是每个库的简要介绍以及一个应用示例：Keras:Keras是一个高级神经网络API，可以运行在TensorFlow、MicrosoftCognitiveToolkit(CNTK)或Theano之上。它提供了简单而灵活......
NumPy：Python科学计算基础包
NumPy是Python科学计算的基础包，几乎所有用Python工作的科学家都利用了的强大功能。此外，它也广泛应用在开源的项目中，如：Pandas、Seaborn、Matplotlib、scikit-learn等。Numpy全称NumericalPython。它提供了2种基本的对象：ndarray与ufunc。ndarray是存储单一数据的多维数组，它......
NumPy 数组切片及数据类型介绍
NumPy数组切片NumPy数组切片用于从数组中提取子集。它类似于Python中的列表切片，但支持多维数组。一维数组切片要从一维数组中提取子集，可以使用方括号[]并指定切片。切片由起始索引、结束索引和可选步长组成，用冒号:分隔。语法：arr[start:end:step]start：起始索引（默认......