双十一数据造假?你们太小看马云了
发布时间:2019-11-18 来源:原数据
近期,圈子里有人质疑天猫双十一数据造假,在业内引起了一场轩然大波。
起因是在今年四月份,有博主根据往年天猫双十一销售数据进行了回归分析,并对2019年数据“神预测”。一般在拟合度0.8以上我们认为高度拟合,但在这个模型中并拟合程度到达了0.999+,三个“9”级别的拟合度。
那么天猫双十一数据的真实性究竟如何呢?
原数据团队希望可以给予读者更加科学的分析与评价。
双十一销售总额宏观分析
2019年11月11日,根据中国人民银行公开数据显示,当天支付业务为17.79亿笔、金额达14820.7亿元。
行业数据:
① 11月11日24时,阿里巴巴西溪园区媒体中心大屏幕上数字的最终定格——全天成交额达2684亿。同时,数智物流新纪录诞生:2019天猫双十一物流订单12.92亿,成为世界物流新高度。(数据来源:天猫,菜鸟网络)
② 京东11月1日零时起至11月11日23时59分59秒,“11.11京东全球好物节”累计下单金额超2044亿元。(数据来源:京东官方)
③ 拼多多虽然没有对外披露“双11数据”,但参考11日零点,刚过16分钟,拼多多的平台汽车销量即破1000台。而11月1日至11日,拼多多平台售出的新款iPhone手机则超过40万台。(数据来源:拼多多官方)
那么,参考央行发布的数据和其他电商平台的销售数据,天猫双十一销售总额达到2684亿,在正常范围内。
神奇的预测模型
下面原数据团队还原了该博主同样的数学模型,并进一步分析了其他对标公司的指标。
原数据团队对博主文中的预测模型进行复现:采用该博主的同样数据与精度
当n=2时,称2次拟合
当n=3时,称3次拟合
比如公司A销售目标都比往年提高30%,并且一直使用这个指标,那么公司A的销售额度是服从2次多项式分布的。
公司B销售目标提高的百分比会调整,第一年提高了25%, 第二年27%,第三年30%,公司B的销售额度会服从3次多项式分布。
为什么用二次或者三次的拟合效果这么好呢?
一般具备以下特征的数据指标,拟合效果就会很好:
① 与时间序列相关
② 整个系统稳定
③ 保持增长的趋势
④ 数据量少
所以我们现在可以理解,为什么天猫双十一数据的拟合度达到了0.999+
① 数据量少(只有10组数据),三次多项式拟合存在过拟合
② 天猫系统比较稳定,且增长趋势可控
你也可以“神预测”
我们利用同样的模型拟合分析别的互联网公司数据,结果如何呢?
对Facebook营业收入进行分析(数据来源:Facebook年报,亿美元 )
三次拟合程度也达到了0.99,两个 “9”级别,那是否也能说Facebook营业收入数据有问题呢?
我们在训练模型的时候并未用到2018年数据。现在用该模型预测Facebook2018年营业收入。
2次拟合预测2018年营业收入——510.36 亿美元
3次拟合预测2018年营业收入——559.18亿美元
实际Facebook2018年营业额——558.38亿美元
三次拟合误差在0.15% 左右
你说神奇不神奇?
同样对谷歌的年度营业收入进行拟合,并预测2018年营业收入(数据来源:谷歌年报,亿美元 )
原数据观点