前言

淘宝双十一的数字每年都创新高,今年更是达到了2684亿。然后在数字的背后,有人提出了质疑,其中最著名是今年四月的一则微博,作者用双十一前10年的数据进行拟合,并成功预测今年双十一的数据区间为2675.37 - 2689,如下图所示。

那么事实是不是这样,他说的有没有道理。今天我们就用Python来验证一下。

准备知识

首先,我们先简单介绍一下拟合的工作原理。如上图的散点图所示,如果有了近十年的数据,那么就可以形成一条曲线。学过数学的都知道,常见的曲线函数为 y=x2y = x^2y=x2。这是一个曲线的特例,我们可以进一步一般化的格式为:y=ax2+bx+cy = ax^2 + bx + cy=ax2+bx+c。这个函数是一般意义的曲线,由于xxx的指数为2,所以称之为二次多项式。同理,我们还有三次多项式的曲线的一般形式 y=ax3+bx2+cx+dy = ax^3+bx^2+cx+dy=ax3+bx2+cx+d。在原文中,提到了三次回归曲线,这里指的就是三次多项式的曲线。

原文还有另外一个概念回归。为了理解这个概念,我们先看一个概念拟合。学过中学数学知道,对于一次多项式,即直线方程 y=ax+by = ax+by=ax+b,只要有两个点就可以将系数 aaa 和 bbb 求出来,从而确定这个直线方程。同理,三次多项式,只要给出4个点就可以确定这个直线程。但是,由于实际中的点多于4个,所以在计算的时候还要进行相应的处理,以得到一个最符合输入的曲线,这个过程就是拟合。通过拟合,我们可以得到一个原多项式方程,然后将新的x值代出,求出y值即是回归。

计算工具

为了简化计算过程,这里使用了Python的一个非常好的发行版 Anaconda,它包括了很多数学的计算工具,其中就包括拟合计算。Anaconda的下载和使用请参见相关文章。

以下是计算使用代码

import numpy as np  # 引入数学计算包
x = np.arange(0, 10, 1) # 生成[0, 1,..., 9] 表示 2009 - 2018这十年
y = np.array([0.52, 9.36, 33.60, 191.00, 362.00, 571.00, 912.00, 1207.00, 1682.00, 2135.00]) # 淘宝2009-2018的实际数据,网上可查。
abcd = np.polyfit(x, y, 3) # 三次多项式拟合,计算abcd的值
f = np.poly1d(abcd) # 利用计算的系数值,生成这个多式项函数f
# 以下为打印结果
print(abcd)
print(f)
print(f(10)) # f(10)即是2019年的数据。

运行结果如下所示:

结果分析

从以上结果可以看到,三次多项式的系数 [a, b, c d] 分别是[ 0.05889666 29.18307692 -29.76850039 0.66198601]。所以,函数的表达式为 y=0.0589x3+29.18x2−29.77x+0.662y = 0.0589 x^3 + 29.18 x^2 - 29.77 x + 0.662y=0.0589x3+29.18x2−29.77x+0.662。最后,当我们将2019年的数据代入(即f(10)f(10)f(10)),可得2019年的数据为 2680.18亿,与实际的2684亿相差不到4亿,非常精确!为了更好地让你看清数据,这里使用Excel制作了一个曲线图,其中曲线为拟合的函数生成的曲线,而散点为真实的数据。如图所示,所有点与拟合结果都高度一致。

结论

可以看到拟合的结果非常符合实际值,即我们可以得到一个结论:使用三次回归函数,我们可以精确地利用前10年的数据推断出第11年,即2019年的淘宝数据。也就是说,博客原文中关于数据精度的结论是正确的

但是,请特别注意,虽然数据计算的结论是正常的,但是最后关于骗子的结论在逻辑上是错误的。也就是说,虽然第11年的数据符合三次回归的计算结果,并不能说明数据造假!为什么?道理很简单,符合预计这个现象只表示一个客观结果,不能说明这个数据是人为的,还是巧合,或者背后有另外的经济或市场规律在起作用。举个例子来说,如果某人根据过去10年的天气数据进行预测,精确推断出今年晴天的天数,你就能说大自然在作弊和欺骗?再举一反例,每次考试结束后,通用都会用正泰分布对考试成绩进行分析,如果数据不符合正泰分布,反而说明是有问题的,可能造假的。也就是说,最终考试的成绩分布,是一定要基本符合正泰分布才是合理的,我们在考试之前就已经能够预知考试的分布,这个算是造假或作弊吗?以上的示例如果你觉得还不够具体,我们看一个现实世界中真实的案例:摩尔定律[百度百科]。

摩尔定律是由英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出来的。其内容为:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔18-24个月翻一倍以上。这一定律揭示了信息技术进步的速度 。尽管这种趋势已经持续了超过半个世纪,摩尔定律仍应该被认为是观测或推测,而不是一个物理或自然法。

这个定律自然不用多说,计算机业内无人不知道,摩尔定律连续几十年有效,直到近几年由于CPU单核瓶颈才开始失效,但是如果考虑多核心的总体性能,仍然是符合的。你能说现在整个CPU业都在造假?表象背后自然有很多更深刻的原因。双十一的数据背后,何止是一个淘宝网那么简单,而是整个中国经济的反应,其繁杂程度远远超过了一家公司的控制能力,更不是一个三次回归曲线所能表达的。

所以,原文作者的整个计算过程的结果都是正确的,但是最终根据计算结果作出关于造假或欺骗的结论却是错误的。当然,我们也不能得出数据就没有造假的结论,本文也没有有说数据就没有造假。本文的结论是:数据是否造假,与是否符合三次回归无关,无论三次回归的结果如何,都无法证明淘宝是否造假。

最后,本文的分析方法都是基于数学和逻辑,最终的结论是一个逻辑上的推断,如有不同意见,欢迎讨论。

双十一数据造假?让我们用Python来验证一下。相关推荐

  1. 双十一数据造假?如何用二元一次方程给马爸爸找回面子!

    点击上方"码农进阶之路",选择"设为星标" 回复"面经"获取面试资料 事件 双十一前夜,大模头用指数曲线预测了一下今年双十一的淘宝天猫销售额 ...

  2. 双十一数据造假?这是什么情况!!!

    双十一狂欢刚刚落下帷幕,天猫累计成交额2684亿元. 正当外界庆祝再次刷新纪录的成交额之际,有一个发布于今年4月的观点被挖出,称"从天猫双十一的全天销售额来看,实际生产数据几乎完美地分布在三 ...

  3. 双十一数据被质疑?教你如何用Python预测未来趋势!

    正当大家还沉静在购物狂欢的氛围之中,质疑数据造假的声音也随之而来.就在今年4月份的时候,有人按照公式已经得出了2019年双11的大致成绩,即2689亿元,这样精准的预测引得不少网友再次围观. 利用二次 ...

  4. python多项式回归预测(基于淘宝双十一数据)

    双11已经结束,按照天猫官方公布的最终数据看,今年的双11成交额为2684亿元,成功刷新了自己创下的商业纪录.然而,早在2019年4月就有网友指出,从天猫双十一的全天销售额来看,实际生产数据几乎完美地 ...

  5. python分析双十一数据

    根据历年双十一数据进行多项式回归:分别用R.Spss.python进行了实现,发现Spss结果更好解释,拟合度达到0.99,将时间数据进行转为1,2,... python的多项式回归结果还没太看懂,因 ...

  6. python收集论文数据造假_现在的学术论文里存在数据造假的情况吗?

    曾有人通过数据造假,在最难忽悠的物理学界骗倒了一众学术大牛,甚至在<科学>.<自然>两大权威期刊上频频发表文章. 这个数据造假的高手就是德国的物理学家舍恩. 我们把镜头拉回到 ...

  7. Faker库:一个数据造假的神库

    ''' 你还在手敲数据吗? 你需要数据造假吗? 你想要高效生成数据吗? faker库可以帮到你!!! 安装方法: pip install faker ''' from faker import Fak ...

  8. 微软全球执行副总裁沈向洋离职;马云回应双十一数据作假;GitHub 官方终于出 App 了! | 极客头条...

    整理 | 郭芮 快来收听极客头条音频版吧,智能播报由标贝科技提供技术支持. 「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注 ...

  9. 双字节数据 先低后高_马云回应双11数据造假;字节上市要再等一等;阿里香港IPO首日获40亿保证金认购;Siri未来或能解读情绪 | Tech周报...

       互联网科技与新商业一周大事,尽在Tech周报. Tech星球(微信ID:tech618)文 |  倪乐航头图 | IC Photo移动新方向1.联想宣布摩托罗拉推出折叠手机Razr 11月14- ...

最新文章

  1. Opengl-立方体贴图(天空盒子)
  2. redux VS mobx (装饰器配合使用)
  3. zabbix监控apache
  4. Java基础知识➣面向对象(八)
  5. Spring Security 中取得 RememberMe 的 cookie 值
  6. socket 编程入门教程(一)TCP server 端:6、创建“通讯 ”嵌套字
  7. postgresql模糊匹配正则表达式性能问题
  8. vue-router路由、mixin混入、vue-resource、axios、计算属性watch、moment.js、vuex、vue-cli、数据双向绑定、搭建vue环境、vue实例、配置启动项
  9. 随想录(反调试技术)
  10. 数组string 转 long
  11. crm高速开发之OrganizationService
  12. Opencv速成笔记--图像处理1
  13. Python调用WebService接口
  14. 江苏计算机一级考试操作题题库,江苏省计算机一级考试填空题题库
  15. ftp服务器文件编码类型,ftp服务器编码格式
  16. 奇安信前三季营收31.9亿:同比增19% 扣非后净亏13.6亿
  17. 二阶常系数齐次线性微分方程的通解
  18. matlab函数之reshape()
  19. 谁动了我的奶酪(读后感)
  20. 强制删除文件 强制删除文件夹

热门文章

  1. python高级工程师技能加点_Python高级工程师进阶之路
  2. mysql 语义分析_情感和语义分析最全中文数据库
  3. 用Borland编译程序
  4. 身份证安全——让挂失的身份证失效的一种方法,我的建议
  5. Arduino Uno 全彩呼吸灯 三色LED灯渐变实例
  6. 华为设备上配置链路聚合和OSPF、RIP
  7. IOS 按钮点击发光效果
  8. 统计学习方法 | 决策树
  9. MongoDB 版本号查询
  10. 如何避免写字楼漏水事件?这个方法简单又实用