您当前的位置:首页 > 论文故事
关于《中国工业企业数据库的使用问题再探》的故事
发布时间:2018-11-26 08:52:31

 陈林

(北京师范大学经济与工商管理学院)

 

 

《中国工业企业数据库的使用问题再探》的故事开始于一次好心办坏事。大约在2014年吧,笔者单位的好朋友、合作者周浩副教授,笑口盈盈、大摇大摆地走进我办公室,大大咧咧、趾高气扬地坐下来后,神神秘秘地说道告诉你个好消息,我拿到2010年后的中国工业企业数据库啦!经过一番激烈的溜须拍马,周老师终于把数据拷贝给我。

拷贝完数据后,我立马致电自己的博士后导师、国内知名经济学者、最早在国内进行现代计量经济学研究的刘小玄研究员。在得知此好消息后,刘老师也马上拿走了该数据库,拟以之进行企业生产效率、僵尸企业等研究。

由于笔者与其他学科学者不同,处在产业经济学的我很关注行业代码的波动。为了整合1998-2013年间多次的四位数行业代码口径变化,笔者花了将近一个月时间规划、设计、整理、检验该新旧数据合二为一的数据库。

在处理数据过程中,笔者日渐发现2011-2013年的数据出现很奇怪的统计指标。说时迟,那时快,某天凌晨笔者接到刘小玄老师的电话——“陈林,你给我那个数据,我用了两种方法检验,发现很可能是假的,我先把Stata Code发给你,你验算一下,然后明天赶紧去确认一下数据来源。第二天,在我兼职责编的《产经评论》审稿会上,我们正好讨论到一篇使用了2011-2013年工业企业数据的论文,大家都觉得其数据存疑。这时候,其中一位兼职编辑戴天仕展示了他一篇数据鉴定报告《工业企业数据库的数据质量分析》。他从另一个角度,用另外几种方法证明了,学术界当时流传甚广的2011-2013年工业企业数据是伪造数据。这样一来,刘小玄、戴天仕、周浩(他也几经周折确认了数据是朋友在淘宝网购买送他的)以及笔者,都确定了此数据库是不法商家通过往年数据模拟出来的假数据。

我们一班学者花了很长时间,吃了这一堑,长了这一智。但学生们却似乎不会长这一智。

20129月所谓的研究生国家奖学金评选活动开展以来,各高校的奖学金竞争愈演愈烈,甚至在近期演变成论文发表竞赛。在笔者熟悉的单位,一些曾获(差点获)该奖的博士三年级研究生,往往可以在两年多时间内发表二三十篇第一作者的CSSCI期刊论文,而且几乎都是大工作量的实证论文。笔者不知道这些论文质量是否会受到工作时间缩短所影响,但却一直在思考这个问题——是什么导致这种浮躁的学术氛围。其实,结论很简单:一是理性人的目标函数如果偏好于追求量的各类评审与基于货币的经济收益,论文将是最小成本下必须最大化的产出;二是随着各种经济学论坛与期刊创新工程的兴起,各种二手、三手、四手……数据可以很容易地获得,加上各类程序代码的泛滥,实证研究慢慢变成数字游戏”——同学们可以很容易地模仿出一篇练笔论文。这跟笔者求学时的风气似乎完全不同,当时连省级面板数据库都是自己从八十年代官方统计年鉴(没有电子版)一个个数字打进电脑,或许是自己比较害怕数据在传递过程中的信息变异吧。

数据,就是历史,就是一个个民族、一个个国家的过去,它应该承载着更沉稳的学术精神。鉴于此,笔者在拿到相对可靠的2011-2013年工业企业数据后,在对数据库进行整理的同时,也试图积累相关经验,希望能通过一篇经验总结式论文对今后中国工业企业数据库的整理、理解、发展产生正向作用,甚至螳臂当车式引领大家向当前的浮躁学风说不。

投稿《经济评论》后,该文经过编辑部的初审与终审、两位审稿人的匿名评审,终于发表出来。为此,笔者对此数双慧眼表示由衷的感谢。200611月第6期《经济评论》发表了当时考博失败已在国有企业工作的我的硕士毕业论文主体章节,让我重新燃起对学术的热爱。今天的《经济评论》能再次青睐我的笔触,让我无比自豪与感叹。12年,这是一个轮回,也是一次短暂洗礼。

经济百家,评论争鸣,感谢《经济评论》一路有我。

 

(《中国工业企业数据库的使用问题再探》载于《经济评论》2018年第6期)