首页 > 其他分享 >STATA数据统计软件学习记录

STATA数据统计软件学习记录

时间:2022-09-21 19:55:29浏览次数:60  
标签:mpg 变量 weight 记录 price length STATA 软件

  STATA是一个数据统计软件,正如它的名字一样,STATA=statistic+data。STATA软件的功能和matlab类似,也可以用代码实现数据的统计与可视化。但几乎只能进行整行整列的数据处理,且每次只能加载处理一个数据矩阵,灵活性和全面性比不过matlab。那我为什么要用STATA呢?这是因为我选修了这门课,水一下学分。当然,相比matlab,它在数据处理方面,也有一些方便之处。下面记录STATA的一些常用的处理、统计、可视化方法。

基本命令

  STATA命令的语法大部分是这样的:命令(空格)待处理的数据名(逗号)可选的一些参数。

读取软件自带数据集

  首先读取STATA自带的样例数据:

sysuse auto, clear

  其中sysuse是一个命令,auto是汽车数据集的名称,clear是在读取数据之前先清空内存中已读取的数据。之后可以在变量窗口看到读取的变量。实际上这里的变量就是excel列表中的列标,每个变量代表一个列标。然后每个列标都有它对应的属性,属性定义了每列数据的类型和一些信息等。如下图:

浏览数据集

  用br命令(等同于browse,STATA要弄一个简写让你更方便一些,然而让初学者很烦,可读性很差,弄巧成拙)可以查看所读取的表格:

br

  如下图所示: 

获取数据基本统计信息

  summarize可以看表格的一些统计信息、codebook则是对表格的各列进行统计。它们后面可以跟着列名,则只显示这几列的信息,否则显示所有列:

summarize price mpg
codebook rep78

  如下图所示:

变量生成与替换

  gen和egen用于生成变量,gen是一对一生成,egen是一对多生成(比如max()值会赋值到每一行上)。如:

gen test1 = 2*price
egen test2 = max(price)

  replace用于变量的替换,如:

replace test1 = test2 in 1/10

  将test1的前10行数据替换为test2。其中的in在很多其他对行进行操作的命令中也可以使用。

  另外要注意的是,不像matlab,STATA中的操作不能直接使用,必须要进行赋值,也就是用gen等命令生成某列,否则会报错。

基于某列取值下的分析

  如果想在某列的各个不同的取值下,对其它列进行分析,可以用by,用法如下:

by foreign, sort: sum price

  表示在foreign的各个取值下,获取price一些基本统计信息(sum就是summarize)。其中,如果by后面的变量没有排序,则必须要加sort,会先对其进行排序,否则会出错(默认排序不就行了?)。

  如果想在某列特定取值下进行分析,可以用if:

sum price if foreign == 0

安装外部命令

  STATA的命令是很分散的,不像python、matlab把相似的命令、处理方法都打包在一块儿。所以有些外部命令没得用,只能一个一个安装。用help查询相关命令,然后进行安装:

help graph3d 

统计命令

  下面的命令使用软件自带的auto数据集。

数量统计tabulate

  统计某列或某两列中不同取值的数量,用法就是后面跟着一个或两个变量:

tabulate mpg
tabulate mpg rep78

  两个以上变量会报错。

相关性分析correlate

  correlate分析变量的相关性,可以输入多个变量,用法如下:

correlate mpg price rep78

  运行结果:

二维可视化twoway

  twoway进行二维可视化,后面每个括号内都能画一个相应的可视化图。如下所示:

twoway (scatter length mpg) (lfit length mpg)

  表示以length为y轴,mpg为x轴,绘制散点图和拟合一元一次方程。可视化结果如下:

  再加by可以在某个变量的各个取值下分别进行可视化:

twoway (scatter length weight) (lfit length weight), by(foreign)

回归regress

基本用法

  使用几列数据对某列数据进行线性回归。比如,使用mpg、rep78、length作为因变量,对price进行回归,用法如下:

regress price mpg rep78 length

  结果:

  我们可以进行一个测试,创建test变量为price、mpg、weight的线性和,然后进行回归:

gen test = price*2+mpg*3+weight*456+789
regress test price mpg weight

  结果:

  可以看出线性回归得到的系数与创建的一模一样。之后还可以使用predict创建回归值和回归偏差:

predict test_hat
predict test_res, res

  结果如下:

二次以上的回归方式

  如果想进行二次回归,可以先创建因变量的平方,然后使用一次、二次变量作为因变量进行回归:

gen weight2 = weight^2
regress mpg weight weight2 foreign
predict mpg_hat
sort weight
twoway (scatter mpg weight) (line mpg_hat weight), by(foreign)

  分别按国内外汽车进行了车重和油耗的二次关系的统计,结果如下:

 

标签:mpg,变量,weight,记录,price,length,STATA,软件
From: https://www.cnblogs.com/qizhou/p/16712549.html

相关文章

  • 2022暑假吃饭记录
    只包括在校的午饭和晚饭。7.4星期一:{\(\,\,\,\,\,\,\,\,\)午饭:cBr凉面+饭团。\(\,\,\,\,\,\,\,\,\)晚饭:方便面杨掌柜粉面菜蛋红色。}7.5星期二:{\(\,\,\,\,\,\,\,......
  • 记录--通过手写,分析Promise核心原理
    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助1.定义整体结构先写出构造函数,将Promise向外暴露/*自定义Promise函数模块:IIFE*/(function(win......
  • python-D1-typora软件和计算机入门1
    一typora软件typora是一款目前非常火爆文本编辑器1.1安装尽量安装在非系统盘符及设置为短路径,方便后面查找1.2文件路径在计算机上就是一个资源的定位坐标,表现为具......
  • 禅道简单记录
    环境:禅道旗舰版3.6.1 错误警告:数据太多,请在php.ini中修改max_input_vars(大于100000的数)。保存并重新启动apache或php-fpm,否则会造成部分数据无法保存。解决......
  • 智能营销软件多少钱
    市面上有很多智能营销软件,软件的多,那么就有正版也有破解版。破解版一般来说价格都是比较便宜的,但是破解版是没有自主研发的,咱们买回去后,可能后期运行就非常不稳定后续就......
  • 记录nodejs中querystring‘已弃用’三种处理方法
    一.升级node版本,修改引入方式//升级到18.x版本后修改引入方式constquerystring=require('node:querystring')二.官方推荐URLSearchParams替代因为不想升级就按照......
  • 盘点那些最好用的软件?
    一、PDF工具无论是职场人还是学生党,我相信没有不熟悉PDF的吧。找工作要把简历从word改成pdf形式,工作要把网上找到的PDF资料改成word,来回切换很麻烦,所以必须要有一个功能齐......
  • 网页转换成电脑exe软件
    1、首先电脑需要有node环境。npm-v检查是否安装成功,出现nodejs的版本号,说明安装成功2、安装nativefiernpminstallnativefier-g 打包地址nativefier--nam......
  • windows下mingw64编译darknet过程中遇到的错误记录下
    ./examples/go.c:787:5:error:unknowntypename'fd_set';didyoumean'fpos_t'? 解决:      go.c文件中添加头文件#include<sys/select.h> ./include......
  • 房产中介管理软件第5课:框架整体分层
    整体架构设计如下 1、Model层:所有实体类2、Common层:数据库访问、配置文件读取、帮助类、实用工具类等3、Repository层:仓储层,用于数据库访问,尽量不做逻辑判断4、Serv......