大数据在彩票预测和解决社会问题的用处

《最简单的科学决策法》书中提到有很多基于统计的判断决策,使用简单的几个指标就能做得很好,再上更多的数据也不能让判断更准确。 作者赛斯也举了个例子。一个烧红的炉子,你只要触碰一下就知道这东西危险不能碰;可是要想知道喝咖啡能不能导致头痛,你大概要喝上几千杯才能看出效果来。

从上面的结果看:明显的效应只要小数据就够了,不明显的效应才需要大数据。 但必须用大数据才能得出的结论,并不是不重要的结论。

彩票研究的核心算法本身只需要几个指标参数调整好就可以得出很好的预测结果,但要做到长期有效达到盈利的目标就需要大数据作为验证和回归测试,这样才能确保算法的参数不止是在某个范围内有效而是能够达到长期有效的平衡点。

网上很多各种公式算法都声称自己99%命中而且给出了几十期的验证数据,在这个数据范围内验证确实非常有效非常令人心动,但往往一放大到500期,一千期,一万期,十万期历史开奖去验证就失效了,就跟理论概率差不多,甚至比理论概率更低了。

大数定律是概率预测不能绕过的,算法只能调整参数取一个接近理论概率的平衡值,跳过一些低于平均概率的范围投注。

很多遗漏值在一千期内看已经达到很大了,比如遗漏了50期,直觉判断认为这个就是最大值了就是极值了,一旦达到45期开始投注应该很安全了可以加倍投注了,但往往一放大十万期的历史数据一验证超过50期遗漏的一大把,甚至超过100期遗漏的还有不少。

当你的维度太多而数据量太少的时候,你就容易发现这种假的强相关性。 实际上,如果你再用一组新的数据测试,你会发现那个变量根本不好使。

这个假相关性,会给人一个可预测的错觉。就连专业研究人员都可能会犯这样的错误。这就是所谓的:维度的诅咒(the Curse of Dimensions)。

所以这也体现了“大”数据的必要性。如果你的数据量不够大,千万不要贸然声称自己发现了什么隐藏的规律。

大数据,不是万能的。但是人很容易为数据痴迷。

目前流行的深度学习算法也是通过输入大量数据进行训练才使得算法得出的结果越来越准确。

所以说彩票预测算法是核心,大数据是保证,通过大数据分析可以发现一些反直觉的结论,让投注的时候能够更加理性,更加不会盲目相信小部分历史数据得出的概率。

-------------

大数据突飞猛进,但还有一些传统学者没有适应这个工具。如果你有志于用数据分析解决真正的社会问题,这个领域现在非常值得进入。

现在大数据工作的工资也很高。一般数据科学家的平均年薪是9万多美元(现在1美金=6.8元人民币),资深数据科学家是13万美元,Google 的数据科学家年薪更是超过15万美元。

大数据,现在是稀缺技能。大数据不是万能的,但是是一个强大的工具。

就算你不掌握具体的数据分析技术,也应该了解这个思维方式。

当你讨论任何社会问题的时候,千万不要信口开河,最好能找到数据支持,要知道很多真相是反直觉的。

------------

赛斯在《人人说谎:大数据、新数据以及关于真实的你我,互联网能告诉我们什么》这本书中列举了大数据的三个关键用处。

1.从罕见的案例中发现规律

2.量化一个效应的大小

3.发现反直觉的结论

该考虑到的问题,大数据的研究者们可能也都已经考虑到了,那我们就在一定程度上可以相信他们的结论。

当然一切研究方法都是有漏洞的,任何结论都只能作为参考。

你察觉不到的规律,大数据能察觉到;你察觉到了的效应,大数据能评估这个效应的大小。

更重要的是,大数据能得出一些跟我们的直觉相反,但却是更可信的结论。

假设现在你有两个潜在的结婚对象。第一个人跟你有很多共同的朋友,第二个人则是一个圈外人,你不熟悉他/她的朋友,他/她也不熟悉你的朋友。那么请问,如果你想要的是长期的关系,你应该跟谁结婚呢?

直觉来说,也许应该选第一个人。这个人跟你的朋友们相处融洽,那就说明你们有很多共同点,想必结婚之后你们两个也会相处得很好。对吧?

不对。我们在 Facebook 上的交友状况,和单身/已婚/有男女朋友的状况都是公开的,研究者就用 Facebook 的数据做了一个分析。

他们锁定那些是夫妻或者男女朋友关系的人,看看他们的朋友圈有多少重合之处。结果发现,朋友圈重合度越高的夫妻或者男女朋友,越有可能在一定时间之后宣布再次单身。

也就是说,最持久的关系,往往是双方各自有不同的朋友圈。 那这到底是为什么呢?

大数据不能告诉我们原因 —— 这是一个“反直觉”的结论。

也许你身边有一对夫妇,感情良好,他们有很多共同的朋友,那你就应该知道,这只是特例。

人很容易被身边的特例影响判断,而大数据不会犯这样的误。

--------

赛斯自己也有一个比较反直觉的发现。

我们知道很多 NBA 球星是出生于贫困家庭,有很多还是来自单亲家庭,那你说,到底是单亲贫困家庭容易出球星呢,还是双亲中产家庭容易出球星?

这个问题非常不好回答。也许单亲家庭的孩子从小自立,拼搏能力更强;也许单亲家庭的孩子从小缺乏管教。

真正的麻烦在于,根本就不存在每个 NBA 球员小时候的家庭状况数据。赛斯想了各种办法。他考察了每个球员都是在哪里出生的,然后看看这些出生地的贫富程度如何。

他尽可能地追溯每个球员的家族历史,他甚至还通过球员的名字判断他是不是来自单亲家庭。原来还有一个规律,单亲妈妈总爱给孩子起一个比较怪的名字,而双亲家庭给孩子起的名就比较正常。

作为一个数据科学家,他不仅仅是用什么数学工具从现有的数据里发掘事实,他还能主动寻找各种相关的数据,他知道去哪找,而且还真找到了。就这样赛斯把几个数据库连在一起,才算是发现了答案。

答案是:来自父母双全的中产家庭的球员更容易取得好成绩。这里面有两个主要原因。

第一是这样家庭的孩子从小营养好,所以长得更高。

第二是这样的孩子社交能力更强。这两个素质对打篮球来说太重要了。身高的优势就不用说了。

有些 NBA 球星从小养成的思维模式就不行,有点钱就忘乎所以,实在不利于事业成功。

所以,大数据确实能告诉我们一些我们本来不知道的东西。

本人公众号原文:大数据在彩票预测和解决社会问题的用处
https://mp.weixin.qq.com/s/T2E5bwTTga5-xUC8EmF44A

------------------------------

本人微信公众帐号: 心禅道(xinchandao)

本人微信公众帐号:双色球预测合买(ssqyuce)

大数据在彩票预测和解决社会问题的用处相关推荐

  1. ACM图灵奖获得者:想从大数据中获益,先解决集成问题!

    文章讲的是ACM图灵奖获得者:想从大数据中获益,先解决集成问题!如今,大数据对所有行业都产生了深远影响:从医疗保健.汽车.电信到物联网.随着数据浪潮的持续,企业都在寻找更新的管理和分析方法.收集可行的 ...

  2. 大数据时代:预测未来5年各行业发展趋势

    大数据及互联网思维给了人类做整体未来决策有了超越以往的前所未有的体系支撑,用今天大数据的思维去重新提升传统行业,将对已有行业的潜力再次挖掘,甚至彻底改变这一行业. 1.零售业 传统零售业对于消费者来说 ...

  3. ​易生信-宏基因组积微学术论坛:基于大数据整合准确预测土壤的枯萎病发生...

    博彩众家之长,积微成就突破.为促进我国宏基因组研究领域的学术交流和技术分享,推动微生物组领域的发展,"宏基因组"公众号联合国内外优秀人才组织"易生信-宏基因组 积微学术论 ...

  4. ​易生信-宏基因组2020 积微学术论坛:基于大数据整合准确预测土壤的枯萎病发生...

    博彩众家之长,积微成就突破.为促进我国宏基因组研究领域的学术交流和技术分享,推动微生物组领域的发展,"宏基因组"公众号联合国内外优秀人才组织"易生信-宏基因组 积微学术论 ...

  5. POI实现大数据EXCLE导入导出,解决内存溢出问题

    POI实现大数据EXCLE导入导出,解决内存溢出问题 参考文章: (1)POI实现大数据EXCLE导入导出,解决内存溢出问题 (2)https://www.cnblogs.com/huangjian2 ...

  6. DataCastle“卧龙大数据 微博热度预测竞赛”,用微博数据实时预测微博传播

    卧龙大数据联手DataCastle "卧龙大数据 微博热度预测竞赛" 一触即发 ¥50000 奖金 高级算法工程师职位 等你挑战 竞赛分初赛.决赛两个阶段 3万条微博,800万位用 ...

  7. 云推荐——大数据时代的个性化互联网服务解决之道

    文 / 韩定一 个性化是商业的未来 现代社会是一个商业社会,工业化解决了批量生产商品的问题,促进商业蓬勃发展.随着社会的不断发展,商品也越来越多样化,以期满足大众的不同需求.以电视机为例,最初只有尺寸 ...

  8. 社会治理大数据平台怎么建_平度市社会治理大数据平台

    单位简介 申报单位:青岛城市大数据运营有限公司 承建单位:青岛城市大数据运营有限公司,杭州数梦工场有限公司 青岛城市大数据运营有限公司是由平度市城市开发集团有限公司与杭州数梦工场科技有限公司(独角兽企 ...

  9. Pycharm打开(打印)大数据文件显示不全的解决方法

    Pycharm打开(打印)大数据文件显示不全,即控制台显示不完那么多行. 解决方法如下: -------------追加以下字段 idea.max.intellisense.filesize = 20 ...

最新文章

  1. SpringBoot源码分析之@Scheduled
  2. [置顶] 【C#】 Socket通讯客户端程序
  3. powerdesigner反向MySQL5.1数据库 生成ER图
  4. 哈希链表的原理及算法实现
  5. Linux 常用命令二 pwd cd
  6. debug和release的区别
  7. linux runqueue定义,linux – 了解rt_rq(实时runqueue)内核中数据成员的使用
  8. 人工智能产业链深度透析—产业应用医疗篇
  9. c# 指定打开某个路径下的CMD_【自学C#】|| 笔记 25 文件的操作
  10. Angular 2 Decorators - 2
  11. mysql event demo_MySQL定时任务event
  12. 有趣 的java代码_[分享]几段有趣的JAVA代码
  13. gbcbig.shx字体的BUG
  14. 秋叶一键重装系统连接服务器失败,小熊教你如何解决一键重装系统失败问题
  15. 开发者应该了解的移动互联网行业内幕
  16. linux学习记录(二)
  17. 钢铁侠材质制作——2、线条轮廓部分的制作
  18. vue3.0 + xlsx 实现纯前端生成excel表格
  19. 优秀人才有没有什么共同的特质可供识别?“Stay young”的特质,这种人基本没有到天花板。...
  20. CSU人工智能与模式识别复习-绪论

热门文章

  1. 网络安全系列之五十二 组策略中的软件限制策略
  2. H3CTE京东翰林讲师分享实验2 网络设备基本调试
  3. 关于使用android系统设备充当web服务器的一点准备
  4. apache +mod_jk URL中文乱码
  5. SAP公司的一些大概介绍
  6. 使用 Web 标准生成 ASP.NET 2.0 Web 站点
  7. H5的学习从0到1-H5的实体(14)
  8. 大数据flume日志采集系统详解
  9. http https
  10. CommonJs和AMD是什么(20170214)