双十一数据造假?你们太小看马云了

发布时间:2019-11-18 来源:原数据

近期,圈子里有人质疑天猫双十一数据造假,在业内引起了一场轩然大波。

起因是在今年四月份,有博主根据往年天猫双十一销售数据进行了回归分析,并对2019年数据“神预测”。一般在拟合度0.8以上我们认为高度拟合,但在这个模型中并拟合程度到达了0.999+,三个“9”级别的拟合度。

 

1.1.png

  

那么天猫双十一数据的真实性究竟如何呢?

 

原数据团队希望可以给予读者更加科学的分析与评价。

 

双十一销售总额宏观分析

 

2019年11月11日,根据中国人民银行公开数据显示,当天支付业务为17.79亿笔、金额达14820.7亿元。



行业数据:

①     11月11日24时,阿里巴巴西溪园区媒体中心大屏幕上数字的最终定格——全天成交额达2684亿。同时,数智物流新纪录诞生:2019天猫双十一物流订单12.92亿,成为世界物流新高度。(数据来源:天猫,菜鸟网络)


②     京东11月1日零时起至11月11日23时59分59秒,“11.11京东全球好物节”累计下单金额超2044亿元。(数据来源:京东官方)

③     拼多多虽然没有对外披露“双11数据”,但参考11日零点,刚过16分钟,拼多多的平台汽车销量即破1000台。而11月1日至11日,拼多多平台售出的新款iPhone手机则超过40万台。(数据来源:拼多多官方)

那么,参考央行发布的数据和其他电商平台的销售数据,天猫双十一销售总额达到2684亿,在正常范围内。

 

  

神奇的预测模型


下面原数据团队还原了该博主同样的数学模型,并进一步分析了其他对标公司的指标。

 

原数据团队对博主文中的预测模型进行复现:采用该博主的同样数据与精度

 

1.2.png

 

当n=2时,称2次拟合

当n=3时,称3次拟合

比如公司A销售目标都比往年提高30%,并且一直使用这个指标,那么公司A的销售额度是服从2次多项式分布的。

公司B销售目标提高的百分比会调整,第一年提高了25%, 第二年27%,第三年30%,公司B的销售额度会服从3次多项式分布。

  

为什么用二次或者三次的拟合效果这么好呢?

一般具备以下特征的数据指标,拟合效果就会很好:

①     与时间序列相关

②     整个系统稳定

③     保持增长的趋势

④     数据量少

 

所以我们现在可以理解,为什么天猫双十一数据的拟合度达到了0.999+

①     数据量少(只有10组数据),三次多项式拟合存在过拟合

②     天猫系统比较稳定,且增长趋势可控

 

你也可以“神预测”

 

我们利用同样的模型拟合分析别的互联网公司数据,结果如何呢?

对Facebook营业收入进行分析(数据来源:Facebook年报,亿美元  )

 

1.3.png

 

三次拟合程度也达到了0.99,两个 “9”级别,那是否也能说Facebook营业收入数据有问题呢?

我们在训练模型的时候并未用到2018年数据。现在用该模型预测Facebook2018年营业收入。

2次拟合预测2018年营业收入——510.36 亿美元

3次拟合预测2018年营业收入——559.18亿美元

实际Facebook2018年营业额——558.38亿美元

三次拟合误差在0.15% 左右

 

你说神奇不神奇?

 

同样对谷歌的年度营业收入进行拟合,并预测2018年营业收入(数据来源:谷歌年报,亿美元  )

 
1.4.png
 
2次拟合预测2018年营业额——1321.92亿美元
3次拟合预测2018年营业额——1377.73亿美元
实际谷歌2018年营业额——1368.29亿美元
误差在0.69% 左右
 
你说神奇不神奇?
 
我们再来看一下  中国居民人均消费支出,原数据团队只用二次拟合就达到了0.998899的拟合度,(数据来源:国家统计局)
 
1.5.png
 
同理,我们可以去预测,亚马逊等公司的销售额,甚至GDP,人口数量等指标,其拟合度都在0.9+。
 
你说神奇不神奇?
其实这都是数学的力量!
 
对于一个成熟的上市公司或稳定的指标系统,在排除掉足以干扰系统稳定性的重大意外事件外,该模型拟合度都可以达到0.9+,这是所使用的数学模型的必然结果,这也是稳定系统的特征表现,但并不能因此就判断系统指标存在造假行为。
 
 

原数据观点

1.       原博主的观点乍一看有道理、很专业,非常容易蒙住不懂数学模型的读者,其实判断模型不够科学和严谨,因为在数据量很少的情况下,用二次拟合和三次拟合去分析具有稳定增长或趋势的指标,很容易做出近似准确的预测,文中已经举例说明。
 
2.       天猫双十一销售总额的数据大概率不存在“假”。天猫平台内部作为一个复杂的模型体系,含众多可控(优惠券、活动等)和不可控因子(取消订单、退货等),并有完善的自我调节机制,当销售额度达不到目标时,会利用可控因子调整,维持总销售额度的稳定。当一个平台的产品销售规模可以比肩一些国家的全年GDP的时候,该平台已经具有很丰富的生态系统,自我调节和修复的能力比我们想象的更加强大。
 
3.       任何一个互联网平台,仅从外部抓取或公开的数据,很难判断其数据真实性,原数据团队也只有在入场尽职调查的情况下,才能给出客观定量评估。
 
 
 

 

新闻中心