从大厂数据分析面试题,看「辛普森悖论」示例
前几天一个朋友去参加头条数据分析面试,面试官出了这样一道问题:
对潜在客户进行投放时,30岁以上客户1000人,转化率2%,30岁以下3000人,转化率4%,整体转化率就是3.5%,所以分析师得出结论:30岁以上的客户价值低,不建议再投放。请问这个结论合理吗?
答案是:不合理。
一般来说,30岁以上的用户,经济实力更强,购买转化率应该更高,所以,这里只用「年龄」来做客户区分,显示是片面了,我们接下来再来看这组数据:
我们把每个年龄段的客户再按性别拆分,这样就构成了4个维度的数据:
从这组数据我们可以看到,30岁以上,无论是男性还是女性,都要比30岁以下的转化率更高,但是为什么合在一起,结论就是相反的了呢?这个问题是1951年英国统计学家“辛普森”提出来的,所以,这个问题就叫做「辛普森悖论」。
现在,我们再来介绍一下「辛普森悖论」的定义。辛普森说:在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
原因其实非常简单,我们一般在分析数据的时候,要考虑「质」和「量」两个维度,但是如果仅仅以年龄来区分转化率的话,就只考虑到了「质」没有考虑到「量」,把年龄这个因素「放大化」了,其实它并不是导致转化率不同的主要变量,本质原因还是没有搞清楚驱动业务的关键因素。
所以,在日常的AB测试中,找到根本变量之后,要设置一定比例的实验组,如果仅仅以2%的数据做实验,最终发现效果很好,但很可能会导致全部上线之后效果非常差,这就是「量变引起质变」的道理。