以一种方式查看数据可以讲述一个故事,但是有时以另一种方式查看数据可以讲述相反的故事。了解这一悖论及其发生的原因至关重要,并且可以使用新工具来自动检测数据集中的这一棘手问题。
当我们想研究数据中的关系时,我们可以绘制,交叉制表或对该数据建模。当我们这样做时,我们可能会遇到这样的情况:从单个数据集的两个不同视图中看到的关系导致我们得出相反的结论。这些都是辛普森悖论的案例。
(资料图片)
找到这些案例可以帮助我们更好地理解我们的数据并发现有趣的关系。本文提供了这些情况发生的位置的一些示例,讨论了它们如何发生以及为什么发生,并提出了在您自己的数据中自动检测这些情况的方法。
什么是辛普森悖论?
辛普森悖论是指一种情况,您认为您了解两个变量之间的关系方向,但是当您考虑其他变量时,该方向似乎相反。
为什么发生辛普森悖论?
之所以发生Simpson悖论,是因为数据的分解(例如,将其拆分为子组)可能导致某些子组与其他子组相比具有不平衡的表示形式。这可能是由于变量之间的关系,或者仅仅是由于数据已被划分为子组的方式。
范例1:入场
辛普森悖论的一个著名的例子出现在加州大学伯克利分校录取数据。在此示例中,从总体上看研究生录取数据时,看来男人比女人更容易被录取(性别歧视!),但是当单独查看每个部门的数据时,男人比女人更容易被录取。大多数部门中的女性。
这是为什么发生这种情况的说明:
不同部门的接受率非常不同(有些部门比其他部门“难”得多)
更多女性申请“更难”的部门
因此,女性的总体接受率较低
这导致我们问:哪个视图是正确的视图?男人或女人的接受率更高?这所大学的招生是否存在性别偏见?
在这种情况下,似乎最合理的结论是,按部门查看招生率更为合理,而分类的观点是正确的。
范例2:棒球
辛普森悖论的另一个例子可以在两个著名棒球运动员,杰特和大卫。1995年和1996年,David Justice分别拥有较高的打击率,但两年来,Derek Jeter的打击率均较高。
两位选手的平均命中率均比1995年高
1996年,德里克·杰特(Derek Jeter)的蝙蝠数量明显增加。1995年,戴维·正义案(David Justice)的人数更多
因此,Derek Jeter的平均击球率更高
范例3:薪资
总薪资随着年龄增长而减少。这是一个令人困惑的现象,因为随着年龄增长,人们应该获得更多的经验和工资收入。然而,这种情况却并非总是如此。
我们以一项研究为例,该研究发现在美国,25岁至54岁的人的总薪资有所减少。另一项研究表明,此类人群中,职业率较低的人群薪资水平低于职业率高的人群。
随着年龄的增加,总薪资有所减少。这是因为职业率的下降导致的,即越来越多的人不再拥有稳定的工作,从而导致薪资水平不断下降。
总之,辛普森悖论展示了一个令人惊讶的事实,即随着年龄的增长,总薪资有可能减少,这是由于职业率的下降而导致的。因此,我们应该采取有效的措施来确保职业率保持稳定,以便使每个人都能够获得合理的报酬。