
1、脱敏数据:所谓脱敏之后的工业企业数据,就是指这份工业企业数据每个企业的名称、地址、电话等敏感信息已经剔除;
2、序贯匹配:将不同年份的未脱敏数据合并为一份面板数据时,需要每家企业具有唯一的企业标识码,序贯匹配的方法可以为每家企业生成唯一的标识码(除序贯匹配外还有聂辉华(2012)交叉匹配法,本文主要以序贯匹配法为例);
有了上述两个概念之后,就可以将我们获取的工业企业数据分为以下三种类型:
1、经过序贯匹配之后的未脱敏数据
2、经过序贯匹配之后的脱敏数据
3、未经过序贯匹配的未脱敏数据
首先是 经过序贯匹配之后的未脱敏数据(获取这类数据的渠道包括:EPS、中国工业企业数据查询系统),这一类型的数据未脱敏,因此可以与污染、创新、海关等数据库匹配使用,但由于数据商并没有提供序贯匹配的代码和详细方法,因此序贯匹配过程是一个黑洞;
其次是 经过序贯匹配之后的脱敏数据( 获取这类数据的渠道包括:RESSET),这一类型的数据脱敏,因此不可以与其他数据库匹配使用,并且序贯匹配过程是一个黑洞;
最后是 未经过序贯匹配的未脱敏数据(获取这类数据的渠道包括:不详 高校老师可能有),这一类型的数据未脱敏,因此可以与其他数据库匹配使用,并且这一类型数据并没有经过序贯匹配的方法为每家企业生成唯一的标识码,因此可以自己参考Brandt et al.(2012)等方法进行匹配,避免序贯匹配过程的黑洞;
包含应收帐款净额、产成品、流动资产平均余额、固定资产净值平均余额、资产、负债、产品销售收入、产品销售成本、产品销售费用、产品销售税金及附加、管理费用、工业总产值(当年价格)、全部从业人员平均人数、企业单位数、亏损企业单位数、亏损企业亏损总额、税金总额39个大类行业、近200个中类行业的主要经济指标数据。《国研网统计数据库》(简称“国研数据”)是国研网在全面整合我国各级统计职能部门所提供的各种有关中国经济运行数据的基础上,历经数年研究开发、优化整合后推出的大型数据库集群,对国民经济的发展以及运行态势进行了立体、连续、深度展示,是中国经济量化信息最为权威、全面、科学的统计数据库之一,是投资、决策和学术研究的有力助手。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)