【李叫兽】大数据帮你洗脑:你是如何混淆因果关系的

这是一个人人都谈大数据的时代,不过数据真的是有益的吗?其实不一定,数据经常也会忽悠人。

请一句话评价下列事件(假设数据是真实的):

1,研究发现,越是成功人士,睡眠时间越短。

2,研究发现,女人结婚后变得更加贫穷,男人结婚后变得更加富有。

3,研究发现,越富有的人越幸福。

4,研究发现,儿童时期吃西兰花越多,成年后往往职业收入越多。

5,研究发现,去医院越多,越容易生病。

6,过去20多年跟踪研究发现,中国GDP越高,90后一代身高越高。

……

根据本人潜水博客论坛观察总结,大部分人的评价是这样的(至少前3个事件的评价是这样):

1,研究发现,越是成功人士,睡眠时间越短。

这么说,我要是不睡觉,是不是薪水就上亿了?

2,研究发现,女人结婚后变得更加贫穷,男人结婚后变得更加富有。

看来还是女人对婚姻牺牲大啊!结婚导致女人收入变低,却增加了男人收入。

3,研究发现,越富有的人越幸福。

屌丝们洗洗睡吧,你幻想的穷开心是不现实的。

4,研究发现,儿童时期吃西兰花越多,成年后往往职业收入越多。

我勒个去,都怪我小时候西兰花吃少了,大白菜吃多了!

5,研究发现,去医院越多,越容易生病。

唉,以后生病还是别去医院了。

6,过去20多年跟踪研究发现,中国GDP越高,90后一代身高越高。

哇!原来提高GDP还有这好处!不过,如果将来中国GDP下降,下一代怎么办?

等等,貌似这上面的逻辑有点问题吧?

实际上,上面的每一个推理都有严重的逻辑错误,都是错把相关关系当做了因果关系:

A越多,B越多,这是相关关系。

A越多,导致B越多,这是因果关系。

而如果没有进一步的调查和理论,相关关系是推理不出因果关系的。

为什么?

请看下面这个“脑筋急转弯”:

猜猜,下图的鸡和蛋是什么关系?

直觉:母鸡刚刚下了蛋。

第二直觉:还有可能是这个母鸡是由这个鸡蛋孵化出来的。

其实,它们有4种可能的关系:

(注:鸡蛋例子引用自李宏彬教授讲座)

同样,两个“A越多,B越多”这样的相关性实际上有4种可能(以收入和睡眠的为例):

1,A导致B:更少睡眠导致收入增加。

2,B导致A:收入增加导致睡眠减少。

3,A和B同时被C导致:随着年龄的增长,人对睡眠要求减少,因此睡眠少。同时年龄大的人,往往经验、人脉、知识更多,也自然收入更多。

4,A和B没有任何关系: 美国、西欧等经济发达,导致人们收入高;同时他们爱吃牛排,导致睡眠需求减少。(数据仅为举例,不代表真有这样的关系。)

所以,当你看到“睡眠越少,收入越多”这样的统计结果后,不要天真地认为只要你减少睡眠,你也能收入变高。

当然生活中的确有人是这么做的:

我认识一个人,看到了这样一个微博上流行的统计结果后,为了获得成功而刻意减少睡眠。

甚至,当他凌晨2点还在玩DOTA时,你过去问他:“你怎么还不睡?”他的回答是:“睡眠越少,将来越成功!为了赚大钱,我先从减少睡眠开始。而在这漆黑的夜里,只有DOTA能让我清醒。”

所以,假设“成功导致睡眠少”而不是“睡眠少导致成功”,你是无法通过减少睡眠而变得更加成功的。就像白种人喜欢吃牛排,但是你无法通过吃牛排变得更白。

除了“成功VS睡眠”之外,其实上面每个新闻都有类似的逻辑错误:

研究发现,女人结婚后变得更加贫穷,男人结婚后变得更加富有。

这个数据其实无法推测出结婚让女人变穷男人变富,还有可能是:预期自己将来没什么钱赚的女人更想赶紧把自己嫁出去,而预期将来能赚很多钱的男人倾向于赶紧找个老婆。

当然,还有可能是其他原因甚至是完全无关的因素造成了这个相关关系。

研究发现,越富有的人越幸福。

通过这个数据并不能推测出你赚钱后就能变得更加富有。

实际上研究证明,当金钱超过个人基本需求之后(比如已经吃饱穿暖),对长期幸福感没有显著影响。

比如中了巨额彩票的人得到的幸福感只是短期的(类似吸毒产生的幸福感),调查发现,中彩票后6个月,即使你变得比之前富有上百倍,但是你的幸福感指数还是维持在6个月前水平。

(此研究详细请看哈佛大学公开课《幸福课》,by Tal-Ben Sharhar)

那么为什么我们发现富有的人往往很幸福呢?

其实这是因为富有和长期幸福都由类似的因素导致:自信、热忱、勤奋等。所以,你的自信、热忱、勤奋等情商特征有2个产物:1,能够提升你长期幸福感,让你觉得生活更加有意义;2,能够让你赚钱升职。但这不代表赚钱本身可以提高长期幸福感。

所以,“穷开心”还是存在的。

4,研究发现,儿童时期吃西兰花越多,成年后往往职业收入越多。

这个新闻是我YY的,但是这句话绝对的正确的!

为什么呢?因为欧美国家的人往往吃西兰花更多,而这些国家的普遍职业收入也很高,所以在全球统计数据上自然会发现“西兰花摄入量”和“职业收入”的相关关系。

但是这并不代表你增加西兰花的摄入会提高未来收入!

5,研究发现,去医院越多,越容易生病。

嗯,这个也是我YY的研究,但数据也是千真万确!但是这不代表不去医院你就不生病了,因为不是“去医院导致你生病”,而不是“生病导致你去医院”。

6,过去20多年跟踪研究发现,中国GDP越高,90后一代身高越高。

这更是绝对真实数据!

中国GDP和90后的身高自然是正相关啊—中国GDP从1990年的不到2万亿涨到2013年的50多万亿,90年出生的人身高也从0厘米增长到170厘米。但是这并不能证明是中国GDP帮助了90后长高。

为什么我们总是错把“相关”当“因果”?

先看下面这样图,如果让你对图中的形状分组,你的第一直觉是什么?

我想大部分人是按照位置分类—把图中的图形按照上边的、左边的右边的分为3组。

但是相互靠近的图形可能并没有任何关系,这样分类可能是无效的。

那怎么不按照形状分类呢?第一反应怎么不是把图形分成三角形、正方形和圆形?

这是因为我们本能—觉得相互靠近的东西一定是有关系的,同时出现的事件也一定是有关系的!

这样的本能在远古时代是很有用的,可以帮助人类在陌生的丛林中生存下来。

当他们发现了一个果壳,从而推测出这片森林有大片果树;当他们听到雷声,从而觉得雷声导致了下雨,得赶紧避雨了等等。这些本能帮助人们更好的在那个简单、直接的世界生存。

但是现在社会瞬息万变,信息复杂程度不知道超过远古时代多少倍,我们已经无法通过简单的相关关系来推测因果了。同时出现的事件可能毫无关系,因果的顺序也可能完全颠倒。

同时无数的错觉思维和错误归因不断发生,比如:

1,大众对新闻的错误归因

假设你看到这样的新闻:

《同性恋抢劫超市,致6人死亡》

网友评价:同性恋就是喜欢抢劫!以后遇到他们小心点!

但是,你怎么知道他们的抢劫行为是因为他们的性取向导致的?如果抢劫劫匪穿41码的鞋,今后你会从此远离41码鞋的人吗?“同性恋”和“抢劫”只不过是同时发生的事件,并不代表它们有关系。

当然,媒体人们为了提高点击率,经常使用这样的技巧:让新闻当事人的某个差异性特征出现在新闻上,从而让大众把“相关当因果”,觉得是这个差异性特征导致了他的行为。

类似的新闻评论还有:

外籍男坐过车站抢方向盘敲打司机

这是因为他“外籍”的身份而导致其打司机吗?中国人自己不打司机?

明星柯震东吸毒!当明星真是容易堕落!

柯震东等人是因为出名而吸毒吗?难道你出名后容易吸毒或者你吸毒后容易出名?

2,盲目学习和模仿

我们经常盲目模仿成功者的特点,觉得模仿了他的特点,我们也能成功。

比如知名的大学无用论:比尔盖茨和扎克伯格都是辍学后才成功的,所以为了成功,我没必要上大学。

请问:他们是辍学导致了成功,还是成功导致了辍学,还是其他因素影响?

健康的人都不去医院,所以你坚持不去医院,你就能变得健康?

再比如企业管理的例子:

苹果公司很成功,同时它给设计师付出的薪水也是最高的。难道就说明它的成功是由其设计师的高薪水导致的?所以你提高自己公司设计师的薪水,你就能成功?

3,刻意规避和迷信

你可能对这个故事感觉到很熟悉:

唉,有一年我第一次吃榴莲,结果当天就遇到了车祸,从此以后,我就再也不敢吃榴莲了。

实际上主人公的车祸和榴莲可能没有任何关系,但是因为是“同时发生的事件”,主人公潜意识觉得吃榴莲导致了车祸,从而对榴莲一辈子心有芥蒂。

错把相关当做因果是很多让人难以理解的迷信的根源之一。

比如在我家乡都有敬车的习惯(每年固定时间向烧纸向上天祈福平安),但是去年突然变更了敬车的习俗—由过去的车头向北变成了车头向南。后来我才知道是因为去年出了很多车祸,大家觉得是敬车时车头向北导致的(相关变因果),从而今年改成了向南。

所以,如果你仔细观察,很多让你难以理解的祖传禁忌,实际上可能是当年某个相关事件的发生导致的—比如出了车祸就再也不吃榴莲了。

结语:

我们正在面临越来越多的数据和越来越多的复杂事件,同时也被要求做出越来越准确的决策。为了应对这样的问题,请不要忘记—别拿相关当因果,数据也会忽悠你!

叫兽问题:

请分析下面这句话的逻辑—

“以前我总觉得相关就是因果,自从学了统计学,我再也不这么认为了,看来统计学真是管用了。”

(关注本主页回复你的想法)