辛普森悖论是指在某些前提下,当人们尝试探究两种变量是否具有相关性时,比如新生录取率与性别、报酬与性别等,会分别对之进行分组研究。然而在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论。
为了解决辛普森悖论,需要仔细考虑各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时,也可以采用更加复杂的统计方法或者模型来避免该问题的出现。