日志

“统计数字会撒谎”之样本的选取

热度 10已有 913 次阅读2012-6-11 09:01 |个人分类:读书笔记| 数字, 统计

“统计数字会撒谎”是美国记者达莱尔.哈夫1954年写的一本关于统计问题的书，书中讲述了各种统计上的问题与误区。书的篇幅不长，内容也不难懂，然而书中讲的统计上的误区甚至可以说是骗子的技巧，在近六十年后的今天，依然有其现实意义。

统计一般来说都会有样本，有意义的全面统计是很难做到的。即使所谓的举全国之力的人口普查，也会在很多方面存在误区，从某种意义上来，也不过是真实情况的一个“样本”而已。在很多情形下，等全面的统计出来，其结果的意义其实也就不大了。

要抽取样本，就面临抽取样本的方式或者说样本的选择问题，这也是很多问题产生的根源。

书中讲到抽样调查耶鲁大学毕业生毕业20年以后的收入，采用的方法是从相关的通讯录或媒体上能找到符合毕业20年条件的毕业生发放调查问卷的方法。问题是，二十年后，有多少收入低的毕业生的通讯录地址依然有效？媒体关注的耶鲁毕业生会是收入高的还是收入低？在找到的这些毕业生里，愿意填写问卷并寄回的，是收入高的还是收入低的呢？选择样本的方式，就可能决定了样本的特性，这往往被一般人所忽视。

书中还讲到50年代调查美国人每天刷牙的次数是1.04次，作者问道，在媒体整天宣传刷牙的好处以及刷牙才是尊重他人的生活方式的情况下，有多少人愿意诚实地告诉调查员，其实我一个星期都不刷一次牙？

现在人们都说，上微博一天后的沮丧心情，得看一个星期的新闻联播才能弥补，平时生活又觉得很正常，哪里来的那么多乌七八糟的事情？“幸福的家庭总是相似的，不幸的家庭则各有各的不幸”，在微博上想要赢得关注，获取转发量，靠晒幸福是做不到的——除非你是郭美美。由于微博传播的特点，话越出格、越离奇，越吸引眼球，就越能获取更多的粉丝和转发量；有了转发量和粉丝，这些事情又会被传播得更广更远......如此反馈下去，会有什么结果可想而知。中国这么大，就算没人造谣，寻找些不平事一点也不困难。如果你把中国当做统计对象，把微博当做统计样本，认为这个样本反映了真实的中国，陷入误区就是早晚的事。