注册 登录
爱吱声 返回首页

就爱抬杠的个人空间 http://129.226.69.186/bbs/?2403 [收藏] [复制] [分享] [RSS]

日志

统计数字会撒谎之“相关”与“无关”

热度 8已有 698 次阅读2012-6-20 09:08 |个人分类:读书笔记| , , 统计局, 如何

统计自身往往不是目的,国家统计局一发布宏观经济数据,各方就纷纷开始出来解读。所谓“解读”,也可以看作是找到几个变量之间的关系。如果确认它们是“相关”的,可能就要根据分析结果采取进一步的行动。问题是,如何判断是否确实“相关”,或者更准确点说,“相关”的程度到底有多少?
 
在自然科学领域,这个问题其实比较简单。数学上只有几条公理,剩下的都要靠推导得出,如果确实“相关”,则这种关系是绝对的,边界是清楚的;换到物理领域,定律都是靠实践总结的,都有自己的适用范围,然而在适用范围内也是精确的,或者说精确度是可以描述的,是确定的,神九能与天宫对接已经再清楚不过的说明了这个道理。也就是说,在数学或者物理领域里面,“相关”就是“相关”,“无关”就是“无关”。
 
同样的情况,在社会领域则有不同。社会领域最大的问题是无法在相同的环境下做实验来验证理论的正确。我们可以从逻辑上推导出一些关系,但是否真的“相关”只能通过统计来验证,而统计本身,正如我们前面所说到的,误差和误会比比皆是。反过来,如果有了统计结果,想法去找出其中的逻辑关系,这个就叫做“数据挖掘”,或者换个说法,叫“牛奶可乐经济学”,“生活中的经济学”,“魔鬼经济学”等等,反正名字多得是。
 
这许许多多“经济学”里,最著名的可能是“啤酒尿布经济学”,说的是有超市把啤酒和尿布放在一起,因为爸爸被妈妈支使着来买尿布时,都会顺手购买自己喜欢的啤酒,因此这两种商品销量都大增云云。事实上,还真有人写了本书,名字就叫“啤酒与尿布”。问题是,很少有人去想一想,你去过的超市,真的有把啤酒和尿布放在一起的吗?作为一个可能去买啤酒的人不妨思考一下,你的一生中买尿布和买啤酒的时间能有多久是重叠的?剩下的日子里,对尿布有过实际生活体验的你,会不会在潜意识中试图避开那玩意旁边的啤酒?
 
如果说得更明白一点,就是统计上的“相关” 并不一定意味着逻辑上的“相关”。很多时候相关关系是由于机缘巧合产生的,这往往是由于样本容量不够大,譬如前文举的牙膏治愈率的例子。还有的时候可能是互为因果关系,逻辑上难以确定何为因,何为果。

还有的时候,虽然变量之间相互没有什么影响,但的确存在着某种相关关系。例如近二十年来物价都涨了很多倍,这是由于经济的发展和通货膨胀导致的。如果任意拿出两种物品的价格来做分析,相关性肯定成立,但一定有逻辑关系吗?大部分没有。或者像有的人说的那样,A涨价了,所以“人”涨价了,“人”涨价了,所以B涨价了。这种放之四海而皆准的道理不说也罢。

说到这里,误导是怎么产生的,其实也比较清楚了。譬如有研究显示,五十年代牛奶消费量和癌症发病率有正相关性,英国妇女癌症发病率比日本妇女高,而当时英国牛奶消费量要高得多。问题是,牛奶真能导致癌症吗?其实更可能的原因是,癌症发病率和寿命高度相关,而在研究期间,英国妇女的平均寿命比日本妇女长12岁。

最近,英国格拉斯哥大学研究者日前对6000余名21至75岁受访者进行了长达37年的追踪调查,结果发现318人在这一时间段内患上前列腺癌,而这些患者此前大都一天喝至少7杯茶,据此一天喝7杯茶以上的人罹患前列腺癌的几率比一天喝茶低于3杯者要高出50%。但是,导致前列腺癌的因素很多,一天多喝3~4杯奶茶的人坐的时间很可能比一般人长,膀胱里的尿液也比其他人多,这都是可能的因素。在找不到逻辑关系之前,做出这样的结论需要慎重。

反过来的例子也不是没有。最近古越龙山黄酒中的致癌物EC问题掀起轩然大波。而且更加糟糕的是,陈酒本来是卖点,而实际上越陈的酒EC含量越高,三年陈每千克0.16毫克,九年陈0.32毫克,而三十年陈就到了1.26毫克。对此,古越龙山声明,黄酒有数千年历史,“但至今没有发现因饮用黄酒致癌的案例发生”。不过我们是否可以想一想,要满足怎样的条件,古越龙山才能承认这是“因饮用黄酒致癌的案例”?

在美剧《The Practice》里面,有个经典的案例。高压线附近的居民有11个患了癌症,经过法庭质证,原告并不能提出高压线导致癌症的科学证据,但被告方州政府也不能提出反证,证明这两者之间肯定没有关系。法庭辩论时,辩方就此发问,有没有可能是水的问题,附近农场的农药问题,附近超市的食品问题……?辩方认为举证责任在控方。而控方说,这些都是政府的责任,政府有责任查清这些问题。但在过去的这么多年里,政府只组织了对高压线致癌问题的研究并得出没有相关性的研究结论,对其他因素并没有去组织调查。要么政府失职,要么政府隐瞒,总之政府要赔偿。

那么对于这样的有一定相关性,但又找不出因果关系的统计数据,法庭是怎么处理的呢?陪审团受了律师辩论的感染,判州政府赔偿3600万美元。被告要求法官不顾陪审团裁决,径直宣判。法官说,我本来期待陪审团能够注意到其中并不存在因果关系,但陪审团没有这样做,因此我宣判被告无需赔偿。

这就是理智和感情在处理统计数据上的差别。




1

膜拜

鸡蛋
5

鲜花

路过

雷人

开心
1

感动

难过

刚表态过的朋友 (7 人)

发表评论 评论 (3 个评论)

回复 erha 2012-6-20 10:16
外行感谢楼主的帖子。
回复 就爱抬杠 2012-6-20 10:31
erha: 外行感谢楼主的帖子。
都是外行,所以需要学习
回复 2012-6-20 11:07
你最近写了很多关于统计数字的,可以看出来你本身并不是学统计的。

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2024-9-28 00:21 , Processed in 0.027490 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

返回顶部