概念:
1. 概率(Probability):
- 描述事件发生的可能性大小的数值。通常用 �(�)P(A) 表示事件 �A 的概率,取值范围在 0 到 1 之间。
2. 随机变量(Random Variable):
- 描述随机试验结果的数学对象。随机变量可以是离散型的(取值有限或可数无限)或连续型的(取值为某个区间)。
3. 概率分布(Probability Distribution):
- 描述随机变量可能取值以及取每个值的概率的函数。常见的概率分布包括离散型的:伯努利分布、二项分布、泊松分布;连续型的:正态分布、指数分布、均匀分布等。
4. 期望(Expectation):
- 描述随机变量的平均值。对于离散型随机变量 �X,其期望为 �(�)=∑���⋅�(�=��)E(X)=∑ixi⋅P(X=xi),对于连续型随机变量 �X,其期望为 �(�)=∫−∞∞�⋅�(�)��E(X)=∫−∞∞x⋅f(x)dx,其中 �(�)f(x) 是概率密度函数。
5. 方差(Variance):
- 描述随机变量取值偏离期望的程度。方差用于衡量随机变量的离散程度,定义为 ���(�)=�[(�−�)2]Var(X)=E[(X−μ)2],其中 �E 表示期望,�μ 表示随机变量 �X 的均值。
6. 标准差(Standard Deviation):
- 方差的平方根,用于度量随机变量的波动性。标准差是方差的常用衡量指标,通常用符号 �σ 表示。
7. 协方差(Covariance):
- 描述两个随机变量之间的线性关系程度。协方差表示为 ���(�,�)=�[(�−��)(�−��)]Cov(X,Y)=E[(X−μX)(Y−μY)],其中 �E 表示期望,��μX 和 ��μY 分别表示随机变量 �X 和 �Y 的均值。
8. 相关系数(Correlation Coefficient):
- 衡量两个随机变量之间线性相关程度的指标。相关系数是协方差标准化后的值,取值范围在 -1 到 1 之间,表示两个随机变量的线性关系强度和方向。
9. 条件概率(Conditional Probability):
- 在给定某个事件发生的条件下,另一个事件发生的概率。条件概率表示为 �(�∣�)P(A∣B),读作“在 �B 发生的条件下,�A 发生的概率”。
10. 贝叶斯定理(Bayes' Theorem):
- 描述了在已知先验概率的情况下如何计算条件概率。对于事件 �A 和 �B,贝叶斯定理表示为 �(�∣�)=�(�∣�)×�(�)�(�)P(B∣A)=P(A)P(A∣B)×P(B)。
定理:
11. 加法法则(Addition Rule):
- 描述了两个事件并集的概率计算方法:�(�∪�)=�(�)+�(�)−�(�∩�)P(A∪B)=P(A)+P(B)−P(A∩B),其中 �(�∩�)P(A∩B) 是事件 �A 和事件 �B 同时发生的概率。
12. 乘法法则(Multiplication Rule):
- 描述了两个事件交集的概率计算方法:�(�∩�)=�(�)×�(�∣�)P(A∩B)=P(A)×P(B∣A),其中 �(�∣�)P(B∣A) 是在事件 �A 发生的条件下事件 �B 发生的条件概率。
13. 全概率公式(Law of Total Probability):
- 用于计算一个事件的概率,通过将该事件在一系列互斥且完备的事件上进行加权求和来实现。对于事件 �A,其概率可以表示为 �(�)=∑��(�∣��)×�(��)P(A)=∑iP(A∣Bi)×P(Bi),其中 ��Bi 是一系列互斥且完备的事件,且它们的并集构成了整个样本空间。
14. 中心极限定理(Central Limit Theorem):
- 描述了大量独立随机变量的均值的分布会趋于正态分布的现象。中心极限定理说明了在满足一定条件的情况下,随机变量的均值在大样本下会呈现出稳定的分布特征,通常是正态分布。
15. 大数定律(Law of Large Numbers):
- 描述了随着试验次数的增加,样本均值趋于总体均值的定律。大数定律分为弱大数定律和强大数定律两种形式,它们表明在随机事件的重复试验中,随着试验次数的增加,事件发生的频率趋于概率的稳定值。
16. 切比雪夫不等式(Chebyshev's Inequality):
- 用于估计随机变量与其均值之间的偏离程度。对于任意一个非负随机变量 �X 和任意 �>0k>0,切比雪夫不等式给出了如下估计:�(∣�−�∣≥��)≤1�2P(∣X−μ∣≥kσ)≤k21,其中 �μ 是随机变量 �X 的均值,�σ 是随机变量 �X 的标准差。
17. 独立性(Independence):
- 描述两个事件或随机变量之间相互独立的性质。如果事件 �A 和事件 �B 的发生与否互不影响,或者随机变量 �X 和随机变量 �Y 的取值不相关,则称它们相互独立。
18. 条件独立性(Conditional Independence):
- 描述在给定一个事件或随机变量的条件下,另两个事件或随机变量之间相互独立的性质。如果事件 �A 和事件 �B 在事件 �C 的条件下独立,或者随机变量 �X 和随机变量 �Y 在随机变量 �Z 的条件下独立,则称它们在条件 �C 下相互独立。
19. 期望的性质(Properties of Expectation):
- 描述了期望运算符的一些基本性质,如线性性、加法性、常数乘性等。
20. 方差的性质(Properties of Variance):
- 描述了方差运算符的一些基本性质,如方差与常数的关系、方差的非负性等。
21. 协方差的性质(Properties of Covariance):
- 描述了协方差运算符的一些基本性质,如协方差与常数的关系、协方差的对称性等。
22. 中位数(Median):
- 描述随机变量取值的位置性质,是使得随机变量取值落在它两边的概率相等的值。中位数不受极端值影响,是一个鲁棒性较强的位置指标。
23. 众数(Mode):
- 描述随机变量取值中出现频率最高的值。众数是描述数据集中趋势的一种指标,适用于离散型和连续型数据。
24. 期望值-方差界(Expectation-Variance Bound):
- 描述了一个随机变量的方差与它与另一个随机变量的协方差之间的关系。期望值-方差界是概率论中常用的一种不等式,用于估计随机变量的方差。
25. 概率密度函数(Probability Density Function, PDF):
- 描述连续型随机变量取值的概率分布情况的函数。概率密度函数在定义域内积分等于1,用于描述随机变量在不同取值范围内的概率分布情况。
26. 累积分布函数(Cumulative Distribution Function, CDF):
- 描述随机变量在某个取值处以下的概率总和的函数。累积分布函数是描述随机变量分布情况的一种方式,通常用符号 �(�)F(x) 表示。
27. 分位数(Quantile):
- 描述累积分布函数的反函数,表示随机变量取值落在某一特定区间的概率。分位数常用于描述随机变量的分布情况和位置性质。
28. 多元正态分布(Multivariate Normal Distribution):
- 描述多个随机变量联合分布情况的概率分布。多元正态分布是正态分布在多维空间的推广,具有良好的数学性质和应用价值。
29. 最大似然估计(Maximum Likelihood Estimation, MLE):
- 描述一种参数估计方法,通过寻找使观测数据出现的可能性最大的参数值来估计总体参数。最大似然估计是概率论和统计学中常用的一种参数估计方法。
30. 贝叶斯估计(Bayesian Estimation):
- 描述一种参数估计方法,基于贝叶斯定理,利用先验分布和观测数据来计算参数的后验分布。贝叶斯估计在贝叶斯统计推断中起着重要作用,能够更好地处理不确定性信息。
31. 矩估计(Moment Estimation):
- 描述一种参数估计方法,通过样本矩(如均值、方差等)来估计总体参数。矩估计方法基于样本数据的矩来估计总体参数,具有简单易用的特点。
32. 最小二乘法(Least Squares Estimation):
- 描述一种用于拟合数据和估计参数的方法,通过最小化观测数据与模型预测值之间的平方误差来求解参数。最小二乘法在回归分析和参数估计中有着广泛的应用。
33. 卡方检验(Chi-Square Test):
- 描述一种用于检验观测数据与理论分布之间拟合程度的统计检验方法。卡方检验通常用于检验分类变量的分布是否与期望分布一致,具有简单易用的特点。
34. 拒绝域(Rejection Region):
- 描述假设检验中的临界值区域,如果样本数据落在拒绝域内,则拒绝原假设。拒绝域是假设检验中的重要概念,用于判断是否拒绝原假设。
35. 接受域(Acceptance Region):
- 描述假设检验中的接受区域,如果样本数据落在接受域内,则接受原假设。接受域是假设检验中的重要概念,用于判断是否接受原假设。
36. 一类错误(Type I Error):
- 描述假设检验中错误地拒绝原假设的概率。一类错误也被称为拒绝原假设时的错误,通常用符号 �α 表示。
37. 二类错误(Type II Error):
- 描述假设检验中错误地接受原假设的概率。二类错误也被称为接受原假设时的错误,通常用符号 �β 表示。
38. 显著性水平(Significance Level):
- 描述假设检验中拒绝原假设的概率阈值。常见的显著性水平通常为 0.05 或 0.01,用于控制一类错误的发生。
39. 功效(Power):
- 描述假设检验中正确地拒绝原假设的概率。功效与样本大小、效应大小和显著性水平等因素有关,用于评估假设检验的有效性。
40. 置信区间(Confidence Interval):
- 描述估计总体参数的一种方法,表示参数的真值落在一定范围内的概率。置信区间通常用于描述估计的不确定性,提供了对总体参数的区间估计。
41. 区间估计(Interval Estimation):
- 描述通过样本数据构造一个区间,以估计总体参数的取值范围的方法。区间估计是统计推断中常用的一种方法,通常与置信区间概念相关。
42. 拟合优度检验(Goodness-of-Fit Test):
- 描述一种用于检验观测数据与理论分布之间拟合程度的统计检验方法。拟合优度检验通常用于检验观测数据是否符合某个特定的理论分布,如正态分布、泊松分布等。
43. 置信水平(Confidence Level):
- 描述置信区间覆盖总体参数真值的概率。常见的置信水平通常为 0.95 或 0.99,用于表示置信区间的可靠程度。
44. 最优不偏估计(Best Unbiased Estimator, BUE):
- 描述一种估计总体参数的方法,具有最小的均方误差并且是无偏的。最优不偏估计是在所有可能的估计方法中选择的最优估计方法。
45. 频率学派(Frequentist Approach):
- 描述一种统计推断的方法,将概率解释为长期重复试验中事件发生的频率。频率学派强调根据观测数据进行推断,将概率视为样本的频率。
46. 贝叶斯学派(Bayesian Approach):
- 描述一种统计推断的方法,将概率解释为关于参数的不确定性的度量。贝叶斯学派强调将先验信息与观测数据相结合,通过贝叶斯定理更新对参数的估计。
47. 置信水平与显著性水平的关系:
- 描述了置信水平与显著性水平之间的关系。置信水平通常与显著性水平互为补集,例如显著性水平为 0.05 时,置信水平通常为 0.95。
48. 可加性假设(Additivity Assumption):
- 描述了某些统计模型中的一个基本假设,即模型中的各项影响是相互独立的。可加性假设在回归分析和方差分析等统计模型中有着重要的应用。
49. 正态性假设(Normality Assumption):
- 描述了某些统计模型中的一个基本假设,即模型中的随机误差项符合正态分布。正态性假设在许多统计模型中都是必要的假设之一。
50. 线性性假设(Linearity Assumption):
- 描述了某些统计模型中的一个基本假设,即自变量和因变量之间存在线性关系。线性性假设在回归分析和方差分析等统计模型中有着重要的应用。
51. 方差齐性假设(Homoscedasticity Assumption):
- 描述了某些统计模型中的一个基本假设,即模型中的随机误差项具有相同的方差。方差齐性假设在回归分析和方差分析等统计模型中常常是必要的假设之一。
52. 相关性与因果性的区别:
- 描述了相关性与因果性之间的概念区别。相关性指的是两个变量之间的相关程度,而因果性则指的是一个变量的变化引起另一个变量的变化。
53. 稳健性(Robustness):
- 描述了统计模型对异常值和偏差的敏感程度。稳健性较强的模型能够更好地适应数据中的异常情况,提高了模型的鲁棒性。
54. 自助法(Bootstrap Method):
- 描述了一种用于估计统计量抽样分布的非参数统计方法。自助法通过对原始样本进行重抽样来构建统计量的抽样分布,从而估计参数的置信区间等统计量。
55. 渐进性(Asymptotic Properties):
- 描述了在样本容量趋于无穷时,统计量的性质。渐进性分析是概率论和统计学中重要的理论工具,通常用于研究统计量的渐近性质。
56. 置信带(Confidence Band):
- 描述了参数估计的不确定性范围。置信带是置信区间的多维推广,用于描述多个参数的估计范围。
57. 二项混合模型(Binomial Mixture Model):
- 描述了一个随机变量服从两个或多个不同二项分布的混合分布情况。二项混合模型在建模具有多个不同状态的随机过程时有着重要的应用。
58. 多项分布(Multinomial Distribution):
- 描述了多个离散型随机变量的联合分布情况。多项分布通常用于描述多类别试验结果的概率分布情况,如骰子投掷、样本分类等。
59. 随机效应模型(Random Effects Model):
- 描述了一种用于分析随机变量之间相关性的统计模型。随机效应模型常用于分析多层次或面板数据结构中的随机变量之间的关系。
60. 混合效应模型(Mixed Effects Model):
- 描述了一种同时考虑固定效应和随机效应的统计模型。混合效应模型常用于分析具有多层次结构或面板数据结构的数据,能够更好地处理数据中的随机性和固定效应。