首页 > 其他分享 >chfs简价

chfs简价

时间:2023-05-30 10:33:20浏览次数:30  
标签:表示 变量 家庭 简价 收入 chfs 缺失 问卷

CHFS数据库即中国家庭金融调查数据库,以2019年为例,该数据库包含了107008个家庭的信息,数据具有全国及省级代表性。在家庭金融调查数据库中,主要包含以上三种数据集,分别是家庭数据集(hh)、个人数据集(ind)和master数据集。

hhid为家庭的识别变量,pline为个人的识别变量,在数据集中,每一个家庭有且只有一个hhid变量,但是一个家庭中可能有多个成员,所以一个hhid变量可能会有多个pline变量。

由于该数据是问卷所得,难免存在缺失数据的情况,一类是由于问卷的逻辑跳转所引起的缺失,这类确实并不影响数据的完整性,对于数值型缺失一般采用“.”来表示,对于文本型的缺失,主要是用空白表示。另外一类是由于被访问者回答错误所引起的缺失。其中,.d表示不知道如何回答,.r表示拒绝回答,.e表示没有被询问,从而造成的缺失。.n表示未给出答案,原始值不能纳入数据库所导致的缺失。

如果变量中加入了ex的后缀,则表示受访问者所回答的答案,是问卷中答案的其他选项,那么就形成了一个新的变量。对于所有循环询问的问题,命名规则为在原变量名后加上后缀“_#”;“#”代表第#次循环。例如,c2003_1 表示第一套房子的建筑面积;c2003_2 则表示第二套房子的建筑面积。

对于问卷中的多选题,在处理过程中,所采用的原则是将变量转化为哑变量,在非循环的多选题中,在原变量名后加上后缀“_*_mc”,*则是对应了问卷中的选项,表示受访者对于第一个选项,是否进行选择,若选择则是1,否则为0,以此类推,若*为2,表示对于该问题的第二个选项,该受访者是否进行选择,若选择则为1,否则为0。如果是循环类型的多选题,则通过原变量名后加上后缀“_#_*_mc”来表示,#表示循环的次数。如#为3,*为1,则表示在第三次循环中,受访者是否对问卷中的第一个选择进行了选择,若结果为0表示未选择,若为1表示选择。

对于数据的缺失,一般会采用插值方法进行处理,在原变量中加入imp,则表示进行了插值处理,用插值变量来替代原变量,若加入的是it,则表示受访者所回答的答案不在选项中,是另外一种范围。同时,在变量中,也会进行相应的截尾处理等。

对于master相关数据的一些说明:综合变量一般为四个,分别是家庭收入、家庭消费、家庭资产和家庭负债,例如,在分析个人所得税的时候,可能使用到的就是家庭的总收入,家庭的总收入一般可分为工资性收入、农业收入、工商业收入、财产性收入、转移性收入等,那么,如果将不平等分为财富不平等和收入不平等,财富不平等是否可以采用财产性收入进行衡量,收入不平等是否可以采用除财产性收入的其他收入,或者采用工资性收入进行衡量?值得讨论。

在master数据集中,给出了相应的样本权重,即家庭样本权重和个人样本权重。对于rural变量,即1表示乡村,0表示城镇,对于城镇的定义,在问卷中也给出了相关的解释。关于地区的分类,region分成东、中、西和东北四个区域,city_level按一、二、三线城市划分。其次就是抽样地址和常住地址也可能存在差异,这个在问卷中也会有所涉及。

在数据库中,还存在着A卷和B卷的划分,分卷信息在问卷中也会进行明确的标识。家庭总收入可能存在负数的情况,主要是由于生产性经验项目亏损等导致。

 

标签:表示,变量,家庭,简价,收入,chfs,缺失,问卷
From: https://www.cnblogs.com/xkdn/p/17442538.html

相关文章

  • CHFS文件内容说明
    1.数据集中含有“hh”,代表问卷中家庭部分的数据,例如:资产与负债,家庭的支出与收入等;2.数据集中含有“ind”,代表问卷中个人部分的数据,例如:人口统计特征(部分),个人工作收入,保险与保障等;3.数据集中含有“master”,代表是非问卷变量数据,具体包括调查样本所属省份信息、同一城市标识码......
  • 【搞事】HTTP文件传输服务器搭建|网站文件分享|HFSxCHFS用法
    1、problem在学校讲台上只有一台电脑,但是下面各种(你懂的)设备,都需要去上面拷贝资源,每次就很麻烦,于是就想着能不能把这些ppt啊什么的分享出来,在下面就可以看。2、solutionHFS(HttpFileServer)是一款基于http的开源文件分享软件。官网地址:https://www.rejetto.com/hfs/?f=dlCHFS(Cute......