希瓦博士对大选舞弊的样本分析

看山是山,看水是水;看山不是山,看水不是水;看山还是山,看水还是水!
打印 被阅读次数

已公布的美国大选计票结果引起发了一些争议。这为数据分析工作者提供了一个学习的机会。以上转发的三张图片讲述了一个相关的分析案例,很有意思。

上图1: Dr. Shiva是MIT的Scientist。他与两位数据工程师合作对密西根州四个县的投票结果进行了深入分析,发现在Oakland, Macomb, 和Kent 这三个县里,越是共和党注册选民多的地区,川普的得票率与共和党参众两院候选人的得票率差距越大,显示出一种非正常的不以党派投票的数据离散分布。这种现象只有在使用“权重计票”算法的条件下才有可能发生。鉴于美国的选举均由计算机计票(人工计票只有在双方选票极其接近或有法律纠纷时才有可能)。所以,可以认为上述三县的计票结果已被计算机做了手脚,不是实际投票的反映。

上图2 有4种不同形态的数据分布示意图。图中黑点代表选票的地区分布;中间的红线代表按党派投票的基线(投川普与投共和党参众两院候选人一致,投拜登与投民主党参众两院候选人一致);红线以上的点代表不按党派投票而投川普的票,红线以下的点代表不按党派投票而投拜登的票;底部的黑线为X轴,标注共和党选民的注册人数,按地区排序从左到右呈递增趋势。1)右下图是正常投票的分布假设:在不按党派投票的选民中,有一部分人投川普,有一部分人投拜登。这两部分人的选票分布相对均衡;2) 左下图是偏向川普的投票分布假设:在不按党派投票的选民中,所有人都投川普,不投拜登;3)右上图是偏向拜登的投票分布假设,与左下图情形相反;4)  左上图是三个县实际计票结果的分布示意图:从左往右看,越是共和党注冊选民多的地方,不投川普投拜登的跨党派投票越多。

上图3是4个县的实际计票分布图。后三个县的数据分布形态非常相近。简单地说,以共和党注册选民超过25%的地区为分界点,川普的得票率由高到低呈线性下降趋势。在共和党注册选民人数最多的地区,川普的得票率最低。与此形成对照,左上角的Wayne县的计票分布没有这种特征。该县是民主党选民占主体。很显然,其计票系统采用了不同于其余三县的算法。

登录后才可评论.