1919 字

人是怎样学习以及形成信念(belief)的? - 慧航 - 专栏

经济 - 博弈与信息; 经济 - 合约与机制; 慧航; 知乎专栏; 文献笔记; 信念;

原文地址https://zhuanlan.zhihu.com/p/19874368

好久不见,这段时间快被数据整死了!恰巧 Yingyao Hu 在我们学校上课,今天就抽空给大家推一篇我的新男神的这篇文章(本人纯直男)。

文章的题目是《Nonparametric Learning Rules from Bandit Experiments: The Eyes Have It!》,由 Yingyao Hu, Yutaka Kayaba, and Matthew Shum 大神合写,发在 Games and Economic Behavior 上。

看到题目也许大家会楞一下,这是经济学研究的范畴吗?当然是。经济学慢慢慢慢地已经把领域扩展到一些本来属于理科的领域了,比如现在有一些人在做神经经济学,就是从生物、神经的角度来解释人类的行为,各种生物实验搞的眼花缭乱,高端大气上档次!

实际上这篇文章是在讲,人是怎样形成 belief 的。熟悉博弈论的同学应该对 belief 这个词不陌生。说个形象点的,空城计里面,我的祖先司马懿面对诸葛亮,心里究竟怎么想的呢?攻还是受?奥不,撤退?他自己心里也会嘀咕,也会想一下这个空城是真的空城还是陷阱的概率。这个就是司马懿的 belief。也许正是诸葛亮之前的神算以及高超的演技误导了司马懿的 belief。

那么,如果诸葛多搞几次空城计,司马懿的 belief 会不会改变呢?这个 belief 改变的过程就是 learning 的过程。

当然,历史不能假设,所以三位作者用实验的数据和一些计量的处理方法,向我们揭示了这一问题。

这个设计是这样的,每次实验,被实验者面前都有两台老虎机,一台绿色一台蓝色。每台老虎机都有一个状态,goodbad。如果老虎机状态是good,那么就会以0.7的概率获得0.5美元,以0.3的概率失去0.5美元;如果老虎机状态是bad,那么就会以0.4的概率获得0.5美元,以0.6的概率失去0.5美元。

两台老虎机的状态是随机的,而且以一定的概率转化。如果老虎机的状态是good,那么下一次这台老虎机还是good的概率是0.85,有0.15的概率,这台老虎机的状态变成bad,另一台变成good

每次选择结束之后,屏幕会提示这次是赢了还是输了,以及提示一下以上的状态转化的概率。

这个实验共有 21 个被实验者。高端的是,每个被实验者前面有台 eye-tracker,也就是这个实验可以记录被实验者眼睛盯着哪个颜色共多长时间(需要借助这个数据才能使用计量方法把后面的数据估计出来,可以把它想像成为一个工具变量)。

实验的过程如下图:

第一张图就是一个白点,提示开始。第二张图让被实验者选择蓝色还是绿色的老虎机。第三张图提示这次的结果,第四张图提示被实验者转化概率。

下面,作者设定了被实验者的 learning rule,也就是给了一定的结构,描述人是怎么更新自己的 belief 的。假设如下:

其中X*是信念(belief),R是这一期的收益,Y是这一期选择。也就是说,作者假设了下一期的信念是完全取决与上一期的信念、上一期的收益以及上一期的选择。那么实际上这三者就形成了一个离散的马尔可夫链。

下面忽略掉复杂的计量理论细节,我们来看看作者发现了什么。

首先,第一张表格说明,如果被实验者相信绿色的是good,那么他有98.66%的概率选择绿色;如果他不确定,那么有44.21%的概率他选择绿色,大约一半一半。至于为什么概率不是100%50%,也许有一些心理学的理论(e-greedy)可以解释。但是基本上,有什么样的信念就有什么样的行为。

其次,第二张表格表明,如果被实验者相信绿色的是good,那么他看绿色的时间也会长一点。这个也比较 make sense。

关键是下面几张表格:

第一张表格可以看到,如果某一次选择了绿色,但是输了,下一次被实验者还有57.24%的概率会认为绿色的是good。看来“固执”也是人的本性,也就是说人们不太愿意改变自己的 belief。不知道金牛座的同学做的话会不会概率更大。

第二张表格可以看到,如果某一次选择了绿色,然后赢了,下一次被实验者会有88.89的概率相信下一期绿色good11.11%的会相信下一期蓝色good。这个概率跟85% 15%的概率相近。

到此为止,数据都是按照作者的假定来看这些转移概率的。那么相对于其他的设定,这个设定表现怎么样呢?

目前比较流行的还有另外两个设定,一个是使用贝叶斯法则的模型(类似与贝叶斯纳什均衡里面更新 belief 的方式),另外一种是 reinforment learning。

作者同样使用这两个设定进行了比较,结果如下:

其中B*是使用贝叶斯学习的结果,V*是使用 reinforment,X*是使用这篇文章的方法。第二列可以看出,使用这篇文章的学习方法预测成功的概率最高,所以看起来这个 belief 更新的模型设定应该是最靠谱的。

嗯,上篇文章有人说我不做 conclusions,这篇我也不做。这篇文章其实理论贡献和实际贡献都有,但是理论部分我没有介绍,所以也就不总结了。那么实际人们形成 belief 的过程和 learning 的过程上面都介绍清楚了,有什么好总结的呢,看官还是慢慢看正文吧,不看正文,总结了你也看不懂。