暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

一文教你如何用统计数据去“说谎”

关二爷大数据笔记 2021-12-01
3311

 引言:本文是《统计数据会说谎》这本经典之作的总结笔记。英文书名(How to Lie with Statistics)像是要教你如何用统计数据说谎,实则是要帮助你如何戳穿谎言。本文将用大量案例,帮你快速了解本书的精华,学会戳穿统计数字背后的各种谎言。

马克·吐温有一句统计名言:

世界上有三种谎言:谎言、该死的谎言、统计数字。

There are three kinds of lies: lies,damned lies,and statistics.


表达的意思就是:看似客观科学的统计数字背后,其实隐藏着很多陷阱。

比如最近我在网上看到的这样一则新闻:

 

腾讯财报显示,截至2021年6月30日公司有94,182名员工,期间总酬金成本为人民币443.88亿元,按6个月计算,腾讯员工平均每月工资为7.85万元。(新闻链接:https://www.sohu.com/a/484315185_120800259)

这里先提出一个思考题:你觉得新闻里的这个7.85万的平均月薪统计得有问题吗?这其中包含了哪些陷阱?

或许读完本文能给你些启发。

 

一、统计数字有哪些陷阱

1.带有偏差的样本

案例:

某高校调查某年毕业生平均年薪25W。

分析:
这些数据是如何得到的?样本多大?调查样本具有代表性吗?
实际上,愿意参与调查可能只是问卷调查设计人群的20%。还有部分人虚荣心作祟,虚报薪水状况,导致所调查年薪偏高。

其实样本偏差总会存在,只能做到尽量减少偏差。

如果你上街做随机调查,就会因遗漏了宅男宅女而产生偏差;

如果你挨家挨户做上门调查,就会遗漏大多数白天上班的人;

如果你转而改为晚上做上门调查,又会遗漏晚上在电影院和夜总会的人。

 

2.精挑细选的平均数

“不会游泳的小明身高1.3米,走过平均水深0.8米的小河,有没有危险?”

这个应该都知道,当然会有危险,因为平均水深0.8米的小河,往往最深处可能有2米以上。

平均数的陷阱是存在多种平均数算法:算术平均数、中位数、众数

这几个平均数可能差别很大,如下图所示:

(一个公司的员工薪酬分布)

 

3.没有透露的小小数

案例1:

某公司开发一款牙膏,宣称治疗蛀牙效果明显,可以使蛀牙减少23%。

分析:
事实上公司采用了12人的实验样本,如此小的实验样本误差肯定偏大,不能反馈真实情况。

 

案例2:

几年前,有个小儿麻痹症疫苗实验。一个社区中有450名儿童接种了疫苗,680名儿童作为对照组没有接种疫苗。

不久,该区域感染了流行病,接种疫苗的所有儿童都未患上小儿麻痹症,而对照组的儿童也没有患病。这是怎么了?

分析:
忽略了该病的低发生率,这种规模的人群预计只会产生2名以下患者。
实验从一开始便注定是毫无意义。将实验规模扩大到20倍,才能产生足具说服力的结果。

 

一个更简单的例子,抛了10次硬币,得到8次正面,就能证明正面朝上的概率是80%?

 

身边案例还有很多,比如会预测足球比赛的章鱼保罗、宣称年化收益50.96%的炒股大师。。。

 

 

4.惊人的图形 

通过改变图形的坐标轴,可以达到惊人的效果。

 

上面两张图都来自同一份数据,1937年美国政府支出趋势:1950万到2000万,增长2.6%

为何左边的看起来增长迅猛,而右边看起来走势平稳?

原因就在于左图的纵坐标不是从0开始,截了一段,就显得增长迅猛了。

 

5.看似相关的数据

案例:

1898年“美西战争”期间,美国海军的死亡率是9‰,而同期纽约市市民的死亡率为16‰

海军征兵部门的人就拿这个数据来说明待在部队更安全。 

分析:
海军的主要构成人员是年轻人。而市民包含了婴儿、老年人、病人等。这些人不管在哪里都是高死亡率的人群。

 

6.因果颠倒

相关关系≠因果关系

案例:

有篇医学报告得出结论:爱喝牛奶的人更容易得癌症。

新英格兰和瑞士等地的癌症患者人数不断增加,这些地方是牛奶的主要生产和消费区。但是在斯里兰卡得癌症的人却不多,因为在这里牛奶很稀缺。

 

分析:
癌症主要在中老年人群发生,实际是瑞士等国家的人均寿命相对较长,所以癌症发病人数也更多。

 

二、如何操纵统计

案例1:平均数的算法

美国普查局调查某年美国家庭的平均收入是3100美元,但是同年有一则新闻中报出的家庭平均收入却为5005美元,为何这两组数字相差如此大?

分析:

新闻中的5005美元用了这样的算法:将美国居民总收入除以总人数,得到人均1251美元,于是一个四口之家的平均总收入为1251*4=5005美元。

这种奇怪的算法在两方面进行了夸张:

1.使用了均值,而非更具代表性的中位数

2.它假设了家庭收入和家庭人口数成正比,实际并非如此

这个案例也说明:对于那些未经解释的平均值,我们根本不用在意!

 

案例2:为使统计数据看上去更精确,使用小数

询问100个人昨晚的睡眠时间,加总后求均值,得出结论:人们平均每天睡眠7.831小时。这个数字听上去就比平均睡眠8小时左右更加精确。

分析:
这种数据从一开始就不可能很精确,人们不可能精确到分地说出昨晚的睡眠时间,每个样本跟实际相差15分钟都很正常,这种数据使用小数毫无意义。

 

案例3:基数变换

一个促销商品,先打50%的折扣,再优惠了20%折扣,实际一共打了几折?

分析:
听上去像打了70%的折扣,其实只有60%,因为后面20%的折扣是按五折后的价格计算的。

  

案例4:将不可直接相加的百分比错误地直接相加

图书价格的上涨主要是由于生成和原材料的成本上升造成的:

加工成本上涨了11%;材料成本上涨了9%;销售及广告上涨了10%。将所有这些加起来总成本只是上涨了30%。

分析:
每项成本都上升10%左右,总成本其实也只会上升10%。

 

案例5

假设去年一瓶牛奶10美元,一条面包10美分。

今年牛奶价格降至5美元,而面包价格升至20美分。

问:

物价指数上升了?

物价指数下降了?

还是根本没有变化? 

分析:可以通过不同的统计方法得出各种结果

// 想证明物价指数上升:
选择去年为基数,今年牛奶价格降低为50%,面包价格升高为200%。
50%和200%求平均得125%,与去年相比,今年上涨了25%。

// 想证明物价指数下降:
选择今年为基数,去年牛奶价格是今年的200%,而面包价格是今年的50%,求平均得125%,就是说去年比今年上涨了25%,今年价格下降了。

// 想证明物价指数没有变化:
用几何平均数,选择去年为基数,今年牛奶价格降低为50%,面包价格升高为200%,50%乘以200%再开平方根,得100%,价格没有变化。

 

三、如何揭穿陷阱 

1.是谁这么说?

是哪个专家说的?

这专家到底是不是权威人士,还是只和权威沾了点边。

 

2.他怎么知道的?

调查的样本是否存在偏差?相关性是否显著?

 

3.漏掉了什么?

  • 平均数和中位数有着本质差别

  • 有没有对比数据

  • 只给出百分数,却没有给出原始数据,是否隐藏了重要信息

 

4.有人偷换概念了吗?

要注意在原始数据和最终结论之间有没有什么地方被偷换了概念,导致前后数据口径不一致,名词定义混乱。

 

5.这是否合乎情理?

  • 能让人印象深刻的精确数据可能与常识相悖的。

(如:纽约的一份报纸称,一个职业女性每周至少需要挣够40.13美元才能养家糊口。然而,维持生活的花费不可能精确计算到美分。)

  • 警惕外推法:截至目前的趋势或许是事实,但是未来的趋势不过是预测者的猜测。

(外推法:比如美国股市持续上涨了10多年,未来10年是否会延续上涨真的不一定。)

 

总结如下图:

 

这里,让我们再回到文章开头的那个新闻:

 在我看来这里面有2个陷阱: 

 

1.一个是偷换概念

平均薪酬成本偷换为平均月薪

财报里给出的薪酬成本,除了工资外,还包含:社保五险一金、餐补、交通补助、差旅费用等其他人工成本。

总薪酬成本除以总人数,明明是平均薪酬成本,偷换概念成平均月薪。

 

2.另一个是平均数陷阱

这里用了算数平均数而非中位数

实际上,根据腾讯2020年年报披露,腾讯13高层(包括执行董事在内)2020年总酬金大约31.64亿元(公司半年总酬金443.88亿元),只这13个高层就占了总薪酬的很大的比例,这样取平均值会产生严重偏差。更准确描述的话应该用中位数。

 

希望这篇《统计数据会说谎》的总结笔记能给你有所启发~


文章转载自关二爷大数据笔记,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论