统计建模基础

时间：2024-07-02 22:32:08浏览次数：9

标签：置信区间模型样本基础建模数据统计

什么是建模？

问题——>数据——>模型——>结论

统计建模的本质

收集、分析、展示、解释数据

统计问题

回归：
横截面数据、纵向数据
分类：
横截面数据、分类数据
我们观测不到真值，观测到的数据一定有误差。

如何确定模型？

1.根据探索性数据分析主观确定一个参数模型或者一个算法。
2.根据已知数据训练/学习出参数或者算法模型的程序。
模型是被训练出来的

注意：

1.统计方法不能单独使用，必须有问题的背景在
2.统计指标如果显著，不能证明模型正确，但统计指标不显著，则能证明模型错误。例如：某海滩上溺水死亡的人与冰激凌的销量正相关，但他们之间不能简单的划等号。必须有背景在。
在例如：公鸡打鸣太阳上升，注意因果关系与相关关系。建模时不能再没有任何理论依据，背景等的情况下设置假设变量。要根据文献，尊重事件的本质规律。

纵向数据

在计量经济学中普遍存在。空间溢出效应，经济发展的空间溢出效应是指由具有时间和空间特征的区域间要素流动及其衍生的文化扩散及制度环境演化导致的地区经济活动状态和效率发生变化的现象,当一个地区经济发展对另一地区有利时称为正的溢出效应,反之则是负向溢出。

分类问题

去医院看病就是一个分类问题，就是医生在对我们的病进行归类。
奖学金评定也是分类问题。
考古学也是分类问题。

参数模型

所有模型都是错的，但是有一些模型是有用的。

算法模型

一定能算。
没有任何模型假设，也就没有模型假设的错误。好算，快。
与统计模型相比，黑匣子问题。

可以两者结合使用，相互验证。

R软件英文参考资料

1.Vincent Zoonekynd编写的Statistics with R
2.Modern Applied Statistics with S

国内统计教学课本的若干误区

假设检验的错误：不能拒绝就接受

当P值被认为不够小而不能拒绝原假设时，只能说“目前没有足够证据拒绝原假设”，而不能说是“接受原假设”

P值小于0.05即显著

p值是由一个样本算出来的，不能对其含义夸大或过分理解

置信区间问题

如果根据公式

\[\bar{x}\pm t_{\alpha/2}*\frac{s}{\sqrt{n}} \]

算出来$\mu$的置信区间是$[a,b]$,也不能说区间[a,b]以概率 $1 -\alpha覆盖\mu $
只能说对于无穷多个不同样本，根据公式算出来无穷多个区间中大概有$1-\alpha$比例的置信区间覆盖$\mu$.
置信区间的前提是样本服从独立正态同分布的。

大样本，小样本

n>30即为大样本的定义是荒唐的，该界限不好确定。

汇总数据与原始数据

能用原始观测数据就不要用汇总数据了，汇总数据会丢失一些东西。

标签：置信区间,模型,样本,基础,建模,数据,统计
From： https://www.cnblogs.com/stayme/p/18279302

Linux统计日志中有多少个不同的IP登录
题目解析知识点：1、awk-F'''{print$3}'指定空格是分隔符进行分割，取第三个。（不指定默认分隔符也是空格）2、uniq-c（uniq命令可以去除排序过的文件中的重复行，因此uniq经常和sort合用。也就是说，为了使uniq起作用，所有的重复行必须是相邻的。参数-c：进行计数）3、wc-l行......
Python基础入门知识
目录引言简要介绍Python语言为什么要学习Python Python的应用领域Python安装和环境配置 Python的下载和安装（Windows,macOS,Linux）配置Python环境变量安装和使用IDE（如PyCharm,VSCode）Python......
Java基础(十一)：抽象类、接口、内部类
目录一、抽象类1、语法格式2、abstract修饰类3、abstract修饰方法二、接口1、定义格式2、接口的说明3、接口的使用规则3.1、类实现接口3.2、接口的多实现3.3、接口的多继承3.4、接口与实现类对象构成多态引用3.5、使用接口的静态成员3.5、使用接口的静态方法4、JDK8中......
C++基础（二）：C++入门（二）
上一篇博客我们正式进入C++的学习，这一篇博客我们继续学习C++入门的基础内容，一定要学好入门阶段的内容，这是后续学习C++的基础，方便我们后续更加容易的理解C++。目录一、内联函数1.0产生的原因1.1概念1.2特性1.3面试题二、缺省参数2.1缺省参数的概念2.2......
【JavaSE】基础篇（六）类型转换与进制书写
隐式转换：把一个取值范围小的数值或者变量，赋值给另一个取值范围大的变量。并转换类型。取值范围小的数据，和取值范围大的数据进行运算时，小的会先提升为大的之后，再进行运算。（byte、short、char三种数据在运算时，都会提升为int，然后再进行运算）而Java中数据类型不一致无法进行......
Java SE入门及基础（61）& 死锁 & 死锁发生条件
目录死锁1.死锁的概念2.死锁发生条件互斥条件不可剥夺条件请求与保持条件循环等待3.案例分析示例分析死锁1.死锁的概念 Deadlockdescribesasituationwheretwoormorethreadsareblockedforever,waitingforeachother ......
前端vue3项目dagre-d3基础配置项及流程图组件示例（包括安装依赖）
目录引言d3是什么？dagre是什么？dagre-d3是什么？dagre-d3配置项流程图示例依赖安装组件示例总结引言因为很多文档都是英文，刚开始调研的时候比较费劲，文档里的配置像示例又比较分散，就自己整理了一下，附上测试时写的示例d3是什么？d3.js 是一个强大的JavaScript库，用于在......
大气物理学（2）——热力学基础
本篇文章源自我在2021年暑假自学大气物理相关知识时手写的笔记，现转化为电子版本以作存档。相较于手写笔记，电子版的部分内容有补充和修改。笔记内容大部分为公式的推导过程。目录2.0本文所用符号一览2.1准静态过程2.2热量和热容量2.2.1热量的计算公式2.2.2常用的两个摩尔热......
ast数据类型补充和基础代码注释-cnblog
ast解析代码树//声明一个变量obj，并赋值一个对象letobj={//对象的属性name，值为字符串"大猩猩"name:"大猩猩",//对象的方法add，接受两个参数a和badd:function(a,b){//返回参数a和b的和加上1000returna+b+1000;......
C#基础2024.07.02
目录1.变量的作用域有哪些？2.成员变量和静态变量的区别？成员变量（实例变量）静态变量（类变量）3.利用递归，写个文件目录遍历，打印出文件名、扩展名、文件大小4.简述访问修饰符有几种，各有什么不同？（1）public（2）private（3）protected（5）internal（6）protectedinternal5.重点比较public、pr......