3838 字

计量经济学中那些从统计学、初级计量里面带来的恶习 - 慧航 - 专栏

经济 - 计量; 慧航; 知乎专栏; 计量;

原文地址https://zhuanlan.zhihu.com/p/19743214

回答线性回归中的ANOVA的作用是什么?这个问题的时候顺手写的东西,希望对大家,特别是只学过一丁点计量经济学的知友们有帮助~有些误区还是要纠正的。 为什么要写这个。因为你经常在知乎看到这样的问题:

或者这种问题:

甚至这个问题还会出现这样的回答:

对于这些问题和回答,实在无力吐槽。

随意删变量

什么?某个变量不显著?删掉!呵呵,这个变量如果理论上对你的y有影响,但是做不出显著,一可能是你的模型错了,二可能是数据没有足够的 variation 做出显著。如果删掉,你其他的估计都会受到“遗漏变量”的影响,估计的系数理论上都不对的。

多重共线性

这个多少跟第一条有关系。什么?你的模型有多重共线性?好严重啊!删变量吧! 为什么不能删变量第一条已经说了。你删掉变量所导致的问题比多重共线性来的还要严重你造吗?

解决多重共线性最好的办法是增加样本,别的好像没办法了。 至于有人用“主成份分析法”,呵呵,你还知道你估计的东西是啥不?

变量筛选

也跟第一条有关系,做很多很多回归,把显著的变量留下来,不显著的删掉。不解释了,参见第一条。统计学有很多变量筛选的方法,但是,经济学统统不适用。经济学模型里面如果理论上支持有,就不能删。

异方差

都21世纪了,你还在线性模型里面检验异方差?没听说过 white heteroskedasticity robust 的统计量吗?这个还需要检验?还需要加权最小二乘?

只有非线性模型中异方差是致命的!线性模型中异方差(自相关)可以很方便的用 white 或者 Newey-west 来解决

当然如果是面板数据,组内的异方差自相关可以直接cluster来做。

R2

这个多少跟主题有关。实际情况是,时间序列你做出低于90%的 R2 都不正常,但是微观数据你做出50%的 R2 都很困难。 OLS 是在给定的数据和变量条件下 R2 最高的,因为他是个线性投影。工具变量估计是一个非正交投影,所以 R2 肯定比 OLS 的要低。但是我们还是要发展 IV 之类的方法,这也从侧面反映了 R2 不重要。

R2 实际上是在比较误差项u的方差和y_hat的方差。但是经济学中,我们不太关心u的方差有多大,而更关心u里面有什么。 所以你如果用 R2 去比较模型,意义不大。

Box-Jenkins

不是专业做时间序列的,不做过多评价。但是基于 ACF、PACF 图的什么“截尾”、“拖尾”是很不靠谱的方法,已经是共识了。

王率宾:计量经济学和统计学什么关系?

慧航http://www.zhihu.com/question/22935472

江灏:一个模型里的变量不显著的话,不就是说明这个变量无关紧要吗,为什么不能删啊?

慧航:好问题。有可能仅仅是这个变量没有足够的 variation 做出显著而已。也就是说如果你扩大样本,可能就显著了。如果这个变量的确应该存在于这个模型里面,而你忽略了,那么其他的参数估计都会受到这个变量的干扰而导致不一致。

江灏:这就是隔行如隔山吧,我完全想象不出来什么情况扩大样本会让变量变得显著,赶明儿找本计量经济学的书看看。

慧航:这个很正常啊,小样本属性比较差呗。你想想,b的显著性取决于其方差,而其方差取决于x的方差的倒数。所以如果x的方差比较小,那么小样本情况下,很有可能b是不显著的。

刘美丽:学统计的表示不在一个世界里生活,增大样本个数怎么能解决多重共线性的问题呢?

慧航:多重共线性导致的是估计量的方差变大,增大样本量可以使这种影响降到最小。注意不是完全共线性,完全共线性只能删掉一个变量。

王鹤喧:我们教金融工程的老师一个劲跟我们说,这些异方差、自相关什么的,都不重要,经济原理才是重要的,现在重点是让方程符合理论,拟和优度、显著性什么的都是凑合着看看的。

慧航:对也不对,比如非线性模型异方差就是非常严重的问题,而且很难解决。

brillbird:哈哈,基本赞同作者的观点。出来读研究生,才发现国内本科学的啥 R2,共线性,删变量是多么不靠谱了。不过作者的有些观点,也极端了点,就我所见,北美这边 GLS,ACF, PACF 之类还是要教的。只不过实际经验研究里面用的少罢了。计量里头,理论是一回事,应用是另一回事的例子太多了。

慧航:教是要教的,比如 GLS 在 NLS 里面就挺好用,而且非线性模型里面有些东西还可以直接看成是某种形式的 GLS。至于 ACF、PACF,也要讲,但是讲的时候应该告诉学生,理论上这两个东西不能用来判断阶数的,以及为什么。的确,理论和应用有的时候差别很大,某些做应用的最喜欢的就是 rule of thumb 以及 acf pacf 这种主观的东西,也没办法。

洁白似血:关于异方差:有些人认为如果模型设定无误的话,那么残差应该是不包含任何信息的白噪声,因此异方差检验实际上是一个模型设定偏误的检验,异方差是模型设定偏误的信号。而模型设定一旦存在较大偏误,就很有可能不光是方差不对了,光修正个方差然后假装自己没事了,是不可取的。如果遇到异方差,需要想一想自己的模型是不是有问题,而不是二话不说直接用花式 robust standard error,这个 robust 只能修正特定的方差问题,而不能管到模型的全部问题。分别从朱家祥,Achen和我现在的计量老师那里各自听到了这种看法,我觉得还是有一定道理的,值得思考。当然 WLS 是不是修正模型设定偏误的,那是另一个具体问题了。

关于 R2:一个月前上计量课的时候听到老师的一个关于 R2 的观点,他说虽然大家都一致认为 R2 不重要,但是他不禁会想有一些实证结果 R2 只有零点零几,虽然关键解释变量高度显著,但是这种结果下y的变动大多是由误差项所贡献的,那么他很难相信这个时候误差项是纯粹的 noise,或者遗漏了和x无关的变量,模型没有遗漏变量偏误的问题。所以他认为 R2 实际上可能包含关于模型质量的信息的,过低的 R2 可能包含了遗漏变量偏误的信号。我觉得还是有些道理的。尤其是众所周知 IV 大部分情况下还是挺不靠谱的,R2 低担心有遗漏变量搞 IV 这条路,也让人感觉不太踏实。

另外一点是把模型和理论摆在比数据之前的哲学信条。虽然我也这么受的教育,但是做多了总是会有疑问:“我(这个作者)何德何能,搞出来的理论也好模型也罢,非得塞一些我(他)觉得有道理的东西,搞的还跟真的似的”?后来接触了一点点另一个山头的 agnostic, 那种让 data 自己选择的哲学信条还是有些令人无法抗拒的。当然会有“你还知道你估计的东西是啥不?”这种问题的出现,但是转过来想,尤其是对一个还搞一点理论的人来说,“你知道你的理论是啥不?”这种问题,同样令人无法回答。

扯了这么多,我想说的是国内非顶尖的计量教育不知道是啥时候哪个流派的哲学信条下的技术,可惜的是他们从不讲技术背后的哲学信仰,还挺遗憾的。

慧航:对于第一条,的确,异方差非常重要,但是并不是在线性情况下重要,非线性条件下这个东西非常重要。关于模型设定,建议阅读 Wooldidge 的 what are we weighting for,会有多种情况导致异方差,也有多种情况导致异方差被消除,除非你能 fully understand the data generating process,线性模型对异方差的讨论多数是没什么额外收益的。

关于 R2,是统计显著和经济显著的差别。这取决于外部干扰有多大,有的时候研究者并非为了解释这个特有的问题,而是为了验证经济理论,这个时候 R2 并不重要。

洁白似血:R2 我就再说验证理论的事。过低的 R2 可能有遗漏变量的信号在里头,这个时候系数就不一致了,因此 R2 也不是完全一点都不重要。至于线性模型对于异方差的讨论没什么额外收益,不理解。我讲的东西和模型线性不线性似乎没啥关系。

慧航:变量总会被遗漏的,all models are wrong, but some are useful, 不然还引入误差项做什么。你讲的是对的,无论任何时候,都要考虑误差项里面究竟有什么,会不会导致不一致。只是单纯拿出异方差来说,在非线性模型里面单异方差就可以导致不一致,而线性模型里面不会。基本上,这是两个问题,就算没有异方差,你也要考虑模型里面究竟遗漏了什么,是不是跟x相关。

洁白似血:我觉得 all models are wrong 这句话本身就有问题,既然 all models are wrong 那么可不可以 “all models are wrong” can be wrong? 另外我的观点是“异方差很可能不单纯”。当然真正“单纯”的异方差不会影响一致性,但是你怎么知道线性模型里的异方差就是“单纯”的?难道不应该单纯的误差项就是 IID 的么,纯粹的白噪音?单纯的异方差真要单纯的起来,需要满足:

  1. 缺失一个变量z在误差项u里头,z的条件方差与x有相关性。
  2. z本身与x不相关。

反正一般的实证情况下,我是不太可能相信z条件方差与x相关,本身却与x无关的,除非那种特殊构造出来的。 所以第一我的哲学观点是有些模型 can be right。第二异方差是 wrong model 的 signal。当然没有异方差不代表模型一定对,但是有异方差,我很难相信模型是对的。

慧航:所以微观实证你就不要做了,几乎没有什么东西是没异方差的。我的意思是说,最关键的问题是你想好误差项里面有什么是跟你的x相关的,单独的异方差不能给你任何这方面的信息。此外,很多模型,特别是加总数据,得到异方差的结构很简单,还是建议你读上面那篇论文。最后,即便不是加总数据,单独异方差的情况也很多,比如薪酬问题,高管的薪酬比一般小职员的方差大,你可以 argue 说忽略了很多因素,但是恐怕控制了能力之类,这个东西也难说同方差。我不用知道异方差存在也知道模型忽略了很多东西,但是忽略了什么你能告诉我麽?如果照你这么说,我可以拒绝任何计量的文章,特别是那些用非线性模型的,没有没问题的。

更直白的例子是化疗。化疗究竟有没有延长寿命?没有化疗的可能平均活一年,方差很小,有化疗的可能没几天就挂了,有的治好了活了十年。考虑到病人会根据自己的身体情况选择是否化疗,你想一下如果是随机分组实验的话才有异方差,自选择反而异方差更小了,这你怎么解释?

Eric Huang:我写的毕业论文涉及ARMA,然而我用的是相关图定阶,有更好的定阶方法吗?

慧航:AIC、BIC 之类。