首页 > 编程语言 >拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析

时间:2022-11-27 21:33:15浏览次数:44  
标签:方差 lines 异质性 我们 因子分析 如果 观测 col

R语言对混合分布中的不可观测与可观测异质性因子分析


今天上午,在课程中,我们讨论了利率制定中可观察和不可观察异质性之间的区别(从经济角度出发)。为了说明这一点,我们看了以下简单示例。让  X 代表一个人的身高。考虑以下数据集

> Davis[12,c(2,3)]=Davis[12,c(3,2)]

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_混合分布

 在这里,关注变量是给定人的身高,

> X=Davis$height

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_混合分布_02

如果我们看直方图,我们有

> hist(X,col="light green", border="white",proba=TRUE,xlab="",main="")

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_R语言_03

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_异质性因子_04

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_方差_05

我们可以假设我们具有高斯分布吗?

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_混合分布_06

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_异质性因子_07

在这里,如果我们拟合高斯分布,将其绘制出来,并添加基于核的估计量,我们将得到

> (param <- fitdistr(X,"normal")$estimate) 
> f1 <- function(x) dnorm(x,param[1],param[2])
> x=seq(100,210,by=.2)
> lines(x,f1(x),lty=2,col="red")
> lines(density(X))

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_R语言_08

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_方差_09

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_数据集_10

 

 

如果看那条黑线,可能会想到一种混合分布,例如

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_异质性因子_11当我们有一个获得混合分布不可观察的异质性因子:概率 p1,一个随机变量  

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_数据集_12

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_方差_13 ,概率p2,一个随机变量  

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_R语言_14

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_数据集_15 。我们可以使用例如

> (param12 <- c(mix$lambda[1],mix$mu,mix$sigma)) 
[1] 0.4002202 178.4997298 165.2703616 6.3561363 5.9460023

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_混合分布_16

 如果我们绘制两个高斯分布的混合图,我们得到

> lines(x,f2(x),lwd=2, col="red") lines(density(X))

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_混合分布_17

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_方差_18

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_异质性因子_19

不错。实际上,我们可以尝试使用自己的代码最大限度地提高可能性,

> bvec <- c(0,-1,0,0)
> constrOptim(c(.5,160,180,10,10), logL, NULL, ui = Amat, ci = bvec)$par

[1] 0.5996263 165.2690084 178.4991624 5.9447675 6.3564746

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_异质性因子_20

在这里,我们包括一些约束,以保证概率属于单位间隔,并且方差参数保持正值。

进一步来说,如果我们假设基础分布具有相同的方差,即

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_混合分布_21

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_数据集_22

在这种情况下,我们必须使用之前的代码,并进行一些小的更改,

> (param12c= constrOptim(c(.5,160,180,10), logL, NULL, ui = Amat, ci = bvec)$par)

[1] 0.6319105 165.6142824 179.0623954 6.1072614

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_R语言_23

如果我们不能观察到异质性因素,这就是我们可以做的。我们实际上在数据集中有一些信息。例如,我们具有人的性别。现在,如果我们查看每个性别的身高直方图,以及基于内核的每个性别的身高密度估计量,

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_混合分布_24

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_数据集_25

 

因此,看起来男性的身高和女性的身高是不同的。也许我们可以使用实际观察到的变量来解释样本中的异质性。在形式上,这里的想法是考虑具有可观察到的异质性因素的混合分布:性别,

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_混合分布_26

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_数据集_27

现在,我们对以前称为类[1]和[2]的解释是:男性和女性。在这里,估算参数非常简单,

sex=="F"
mean sd
164.714286 5.633808
sex=="M"
mean sd
178.011364 6.404001

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_数据集_28

如果我们绘制密度,我们有

> lines(x,f4(x),lwd=3,col="blue")

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_方差_29

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_异质性因子_30

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_混合分布_31

 

如果再次假设相同的方差怎么办?即,模型变为

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_混合分布_32

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_异质性因子_33然后,一个自然的想法是根据以前的计算得出方差的估计量

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_混合分布_34

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_R语言_35

 

> s
[1] 6.015068

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_R语言_36

再一次,可以绘制相关的密度,

> lines(x,f5(x),lwd=3,col="blue")

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_方差_37

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_异质性因子_38

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_数据集_39

现在,如果我们仔细考虑一下我们所做的事情,那仅仅是对一个因素(人的性别)的线性回归,

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_混合分布_40

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_异质性因子_41

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_R语言_42

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_R语言_43

实际上,如果我们运行代码来估算此线性模型,

Residuals:
Min 1Q Median 3Q Max
-16.7143 -3.7143 -0.0114 4.2857 18.9886

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 164.7143 0.5684 289.80 <2e-16 ***
sexM 13.2971 0.8569 15.52 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.015 on 198 degrees of freedom
Multiple R-squared: 0.5488, Adjusted R-squared: 0.5465
F-statistic: 240.8 on 1 and 198 DF, p-value: < 2.2e-16

拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析_方差_44

我们得到的均值和方差的估计与之前获得的估计相同。因此,正如今天上午在课堂上提到的,如果您有一个不可观察的异质性因子,我们可以使用混合模型来拟合分布,但是如果您可以得到该因子的替代,这是可观察的,则可以运行回归。



标签:方差,lines,异质性,我们,因子分析,如果,观测,col
From: https://blog.51cto.com/u_14293657/5890365

相关文章

  • 阿里云可观测 10 月功能快报&优惠快讯
    ......
  • 基于云原生网关的可观测性最佳实践
    作者: 井轶为什么要进行可观测性建设可观测性并不是一个新词,该词来源于控制理论,是指系统可以由其外部输出推断其其内部状态的程度,随着IT行业几十年的发展,IT系统的监控,告......
  • k8s集群可观测性
    k8s集群健康来源当把应用迁移到Kubernetes之后,要如何去保障应用的健康与稳定呢?其实很简单,可以从两个方面来进行增强:首先是提高应用的可观测性;第二是提高应用的可恢复......
  • 调用链路上千条,如何观测 Nacos 的运行状态
    作者:涌月背景随着近年来微服务体系发展,微服务上下游链路的越来越复杂,在阿里云的线上实践场景中,我们发现使用微服务架构的公司的业务动辄会出现上千条调用链路,排查问题代价巨......
  • 调用链路上千条,如何观测 Nacos 的运行状态
    作者:涌月背景随着近年来微服务体系发展,微服务上下游链路的越来越复杂,在阿里云的线上实践场景中,我们发现使用微服务架构的公司的业务动辄会出现上千条调用链路,排查问题代......
  • eBPF 实践 -- 网络可观测
    简介观测云采集器,是一款开源、一体式的数据采集Agent,它提供全平台操作系统支持,拥有全面数据采集能力,涵盖基础设施、指标、日志、应用性能、用户访问以及安全巡检等各种场......
  • eBPF程序摄像头——力争解决可观测性领域未来最有价值且最有挑战的难题
    根据Splunk的可观测性全球调研报告,可观测性当前主流技术Tracing、Logging、Metrics已经在更多机构广泛的被使用起来了,并取得了不错的效果。但是机构可观测性的成熟度仍然......
  • 阿里云 ACK 接入观测云
    简介容器服务Kubernetes版(简称ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。2021年成为国内唯一连续三年入选Gartner公共云容器报......
  • Linux性能优化和内核观测 - 内存篇(一)
    内存虚拟内存Linux采用的是​​虚拟内存​​机制,每个进程都有自己的虚拟内存地址空间,仅当实际使用内存的时候才会映射到物理内存地址之上。这种设计提供了物理内存的超额分......
  • 阿里云日志服务SLS携手观测云发布可观测性解决方案,共建可观测应用创新
    简介: 2022年云栖大会期间,阿里云同观测云共同发布可观测性联合解决方案。观测云通过集成日志服务SLS的产品能力,发布了观测云SAAS专属版。2022年云栖大会期间,阿里云同观......