1065 字

为什么经济管理类论文建模型前都要做一个描述性统计? - 慧航 - 问答

经济 - 计量; 慧航; 知乎问答; 描述统计量; 计量;

原文地址https://www.zhihu.com/question/23074134#answer-49194682

描述性统计是非常重要但是又经常被一些人忽视的一个统计手段,往往在实证的文章中,描述性统计是我们论文的第一张表。

实际上,描述性统计不仅仅应该是我们论文的第一张表,在我们实际做实证的过程中,在实际做出分析之前,做变量的描述性统计也是必须要做的。

在做实证的过程中,做描述性统计包括且不仅限于以下方面的作用:

  1. 发现数据中的异常(比如本该为正的出现负数,本该为比例的超过了 1 等等);
  2. 通过分布图发现离群值点;
  3. 检查数据满足分析所需要的假设(比如是否有 censored 情况,以及模型本该需要的分布、support、对称等各种假设);
  4. 检查数据缺失情况;
  5. 检查数据是否符合直觉;
  6. 在某些情况下,检查数据是否符合分析的要求(比如做 Logit、Probit 回归的时候,=1的样本是不是太少)

以上的工作在实际做分析之前都要做,而对于读者和审稿人来说,可能也是他们感兴趣的点,所以也必须报告出来让大家大体知道你手上的数据是怎样的。特别是有些数据是作者自己从网上抓取的、调查的等等,可能这份数据是独一无二的,更需要给读者和审稿人一个明确的交待。

另外,在做实际分析的时候都需要清洗数据,报告描述性统计也能让读者和审稿人大体了解你都做了什么样的清洗工作,或者说被你清洗过后的数据是怎样的,往往这是非常重要的。

描述性统计不仅仅是简单的描述,也可以帮助讲故事,甚至很多的 idea 就是从看描述性统计中得到的。通过分类做描述性统计等手段,我们可以从中得到一些符合直觉的、反直觉的观察,进而提出故事、思考故事。比如下图是一个女性劳动参与的描述性统计:

那么具有什么特征的女性更倾向于工作呢?下图做了一定的分解:

可以看到,不参加工作的女性更有可能有小孩抚养,教育程度更低,更有可能是西德地区等等。观察这些描述性统计都可以带来一些启发,或者提出问题。

除以上原因外,还有个非常重要的原因,就是帮助读者和审稿人阅读回归表格。很多人做回归的时候,出于某些目的会对一些变量 scaling 等等,但是读者和审稿人往往希望知道这些变量的「经济显著性」究竟有多强。仅仅得到一个显著的结果往往是不够的,关心的变量x变动之后对结果y究竟有多大影响?因为单位的问题,有些时候往往难以比较。所以经常我们可能关心「当x变动一个标准差之后,y有多大的影响」,这个时候就需要使用描述性统计和回归表格结合起来一起看了。还有比如上面的age同时有age^2,那么当年龄增加1,平均而言会对y有多大影响呢?这个时候可能会需要age的均值,同样需要诉诸于描述性统计。类似此类的问题,没有描述性统计的情况下,读者是没办法计算的。