-
t检验的线性数学模型
- 单样本t检验:假设总体均值为\(\mu\),样本容量为\(n\),样本均值为\(\bar{X}\),样本标准差为\(S\)。模型可以表示为\(X_i=\mu + \epsilon_i\),其中\(X_i\)是第\(i\)个观测值,\(\epsilon_i\)是误差项,且\(\epsilon_i\sim N(0,\sigma^2)\)。检验统计量\(t=\frac{\bar{X}-\mu}{S/\sqrt{n}}\)服从自由度为\(n - 1\)的\(t\)分布。
- 独立样本t检验(两样本t检验):设有两组样本,第一组样本\(X_{1i}\),\(i = 1,2,\cdots,n_1\),均值为\(\bar{X}_1\);第二组样本\(X_{2j}\),\(j = 1,2,\cdots,n_2\),均值为\(\bar{X}_2\)。假设两组样本分别来自正态分布总体\(N(\mu_1,\sigma^2)\)和\(N(\mu_2,\sigma^2)\)(方差齐性假设)。模型可以表示为\(X_{1i}=\mu_1+\epsilon_{1i}\),\(X_{2j}=\mu_2+\epsilon_{2j}\),其中\(\epsilon_{1i}\)和\(\epsilon_{2j}\)是误差项,且\(\epsilon_{1i}\sim N(0,\sigma^2)\),\(\epsilon_{2j}\sim N(0,\sigma^2)\)。检验统计量\(t=\frac{(\bar{X}_1 - \bar{X}_2)-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\),其中\(S_p\)是合并标准差,自由度为\(n_1 + n_2- 2\)。
-
方差分析的线性数学模型
- 单因素方差分析:假设有\(k\)个处理组,每个处理组有\(n_j\)个观测值(\(j = 1,2,\cdots,k\))。总观测数\(N=\sum_{j = 1}^{k}n_j\)。模型可以表示为\(X_{ij}=\mu+\alpha_j+\epsilon_{ij}\),其中\(X_{ij}\)是第\(j\)个处理组的第\(i\)个观测值,\(\mu\)是总均值,\(\alpha_j\)是第\(j\)个处理组的效应(\(\sum_{j = 1}^{k}\alpha_j = 0\)),\(\epsilon_{ij}\)是误差项,且\(\epsilon_{ij}\sim N(0,\sigma^2)\)。方差分析的基本思想是将总变异分解为组间变异和组内变异,通过比较它们的大小来判断处理因素是否有显著影响。
- 多因素方差分析:以两因素方差分析为例,设有因素\(A\)有\(a\)个水平,因素\(B\)有\(b\)个水平,每个组合\((i, j)\)下有\(n_{ij}\)个观测值。模型可以表示为\(X_{ij k}=\mu+\alpha_i+\beta_j+(\alpha\beta)_{ij}+\epsilon_{ijk}\),其中\(X_{ij k}\)是因素\(A\)的第\(i\)个水平、因素\(B\)的第\(j\)个水平下的第\(k\)个观测值,\(\mu\)是总均值,\(\alpha_i\)是因素\(A\)的第\(i\)个水平的主效应,\(\beta_j\)是因素\(B\)的第\(j\)个水平的主效应,\((\alpha\beta)_{ij}\)是因素\(A\)和\(B\)的交互效应,\(\epsilon_{ijk}\)是误差项,且\(\epsilon_{ijk}\sim N(0,\sigma^2)\)。
-
线性回归的线性数学模型:
- 简单线性回归:设自变量为\(x\),因变量为\(y\),样本容量为\(n\)。模型可以表示为\(y_i=\beta_0+\beta_1x_i+\epsilon_i\),其中\(y_i\)是第\(i\)个观测值的因变量,\(\beta_0\)是截距,\(\beta_1\)是斜率,\(x_i\)是第\(i\)个观测值的自变量,\(\epsilon_i\)是误差项,且\(\epsilon_i\sim N(0,\sigma^2)\)。目标是通过最小二乘法估计\(\beta_0\)和\(\beta_1\),使得残差平方和\(\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2\)最小,其中\(\hat{y}_i=\beta_0+\beta_1x_i\)是预测值。
- 多元线性回归:设自变量为\(x_1,x_2,\cdots,x_p\),因变量为\(y\),样本容量为\(n\)。模型可以表示为\(y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+\epsilon_i\),同样\(\epsilon_i\sim N(0,\sigma^2)\)。通过最小二乘法估计参数向量\(\boldsymbol{\beta}=(\beta_0,\beta_1,\cdots,\beta_p)^T\),使得残差平方和最小。
-
广义线性回归的线性数学模型:
- 广义线性模型(GLM)是线性模型的推广。它由三个部分组成:随机部分、系统部分和连接函数。随机部分指定了响应变量\(y\)的分布,例如泊松分布(用于计数数据)、二项分布(用于二元数据)等。系统部分是线性预测器\(\eta=\beta_0+\beta_1x_1+\cdots+\beta_px_p\)。连接函数\(g\)将线性预测器\(\eta\)与响应变量\(y\)的均值\(\mu = E(y)\)联系起来,即\(g(\mu)=\eta\)。
- 例如,对于二项分布的逻辑回归(广义线性回归的一种特殊情况),设\(y_i\)是二分类变量(\(0\)或\(1\)),\(x_{i1},x_{i2},\cdots,x_{ip}\)是自变量。模型可以表示为\(\text{logit}(p_i)=\beta_0+\beta_1x_{i1}+\cdots+\beta_px_{ip}\),其中\(\text{logit}(p_i)=\ln\left(\frac{p_i}{1 - p_i}\right)\),\(p_i = P(y_i = 1)\)是成功的概率。响应变量\(y_i\)服从二项分布\(y_i\sim B(n_i,p_i)\),其中\(n_i\)可以是\(1\)(伯努利分布情况)。