目录

  • 课程相关
  • 推荐书籍
  • 在n个数中查找出现次数超过一半的数字
  • 在n个数中寻找出现次数最多的k个数字
  • 估计n个数中出现次数最多的k个数字的出现次数
  • 布隆过滤器

课程相关

李荣华 lironghuabit@126.com
主页 ronghuali.github.io
课程考核 大作业(综述)

推荐书籍

  • 王宏志,大数据算法,机械工业出版社,2015
  • Jure Leskovec, Anand Rajaraman, Mining of Massive Datasets edition
  • 中文版:大数据-互联网大规模数据挖掘与分布式处理,王斌 译,人民邮电出版社

在n个数中查找出现次数超过一半的数字

使用一个桶,数据按顺序进桶,如果桶中无数字,该数据进桶,且计数1;如果桶中有数字,且与当前数字不同,计数器减一;如果桶中有数字,且与当前数字相同,计数器加一。当计数器为零时,桶清空。最终,桶中留下的数字即为最频繁的数字。

在n个数中寻找出现次数最多的k个数字

  • Misra-Gries算法
    对于每个元素x:①若存在统计x的计数器,该计数器加一;②若不存在统计x的计数器,且计数器个数小于k,新建统计x的计数器且初始化为1;③若不存在统计x的计数器,且计数器个数为k,所有计数器数值减一,删除数值为零的计数器。最终,k个计数器统计的x则为出现次数最多的数字,且计数器的值可作为对应数字的出现次数的估计值。

估计n个数中出现次数最多的k个数字的出现次数

在Misra-Gries算法中,执行步骤③会丢弃k+1个数字(k个计数器减一,且当前数字没有加入计数)。我们可以计算最终得到的k个计数器内值的和,并记为n‘。则,最多进行了(n-n‘)/(k+1)次步骤③。因此,元素出现次数的估计值比真实值最多小(n-n‘)/(k+1)

布隆过滤器

作用:查询一个数据是否在数据集中。

20201014 《人工智能与大数据》第1节课 笔记相关推荐

  1. 20201014 《计算感知》第2节课 笔记

    目录 导论 David Marr的视觉计算理论 信息处理的三个层次 视觉表示框架 一些书籍(Marr吹) 计算机视觉研究的五大研究分支 计算机视觉的应用 视觉的特性 计算视觉 导论 认知 谋划 行动, ...

  2. 人工智能和大数据的开发过程中需要注意这12点

    https://www.toutiao.com/i6636522371094151694/ 2018-12-19 10:16:15 人工智能是近年来科技发展的重要方向,在大数据时代,对数据采集.挖掘. ...

  3. 人工智能与大数据开发的12个注意事项

    人工智能是近年来科技发展的重要方向,在大数据时代,对数据采集.挖掘.应用的技术越来越受到瞩目.在人工智能和大数据的开发过程中,有哪些特别需要注意的要点? 人工智能领域的算法大师.华盛顿大学教授Pedr ...

  4. 荐号 | 11个人工智能与大数据相关的个人、企业优质号

    AlphaGo Zero都会自学了,作为刚刚步入AI大门的我们,应该如何选择合适自己的知识平台呢?今天小编为你甄选了几个高质量的技术公众号. 这些号更多的不是讲授枯燥的理论,而是从行业资讯.一线技术. ...

  5. 选课通知 | 北交大《人工智能与大数据应用实战》秋季全校选修课简介!

    各位小伙伴们,我是这个公众号的运营人员,今年我在北京交通大学开了一门面向全校的<人工智能与大数据应用实战>课程,课程号:C404004B,交通.土木.规划.金融.计算机等领域的本科生和研究 ...

  6. 下午开课(附课时安排) | 北交大《人工智能与大数据应用实战》

    各位小伙伴们,我是这个公众号的运营人员,今年我在北京交通大学开了一门面向全校的<人工智能与大数据应用实战>课程,课程号:C404004B,交通.土木.规划.金融.计算机等领域的本科生和研究 ...

  7. 选课通知 | 北交大《人工智能与大数据应用实战》第二次开课,欢迎选修~

    各位小伙伴们,今年我持续在北京交通大学开设面向全校的<人工智能与大数据应用实战>课程,课程号:C404004B,交通.土木.规划.金融.计算机等领域的本科生和研究生都可以选,欢迎大家选课交 ...

  8. 人工智能、大数据的广泛应用,算法推荐如何守好边界

    来源:人民数据 本文共2000字,建议阅读5分钟 人工智能.大数据的广泛应用,给互联网平台带来了自动化的算法技术. 人工智能.大数据的广泛应用,给互联网平台带来了自动化的算法技术.一方面,互联网平台利 ...

  9. 独家 | 人工智能和大数据是如何联系在一起的?

    作者:Vikas Arora 翻译:万文菁 校对:丁楠雅 本文约1800字,建议阅读7分钟. 本文将讲解如何通过人工智能和大数据解决与数据相关的所有可能问题. 大数据和人工智能是当今最流行和最有用的两 ...

  10. 深度丨人工智能和大数据的关系及中国在AI领域如何赶超世界

    语音也在里面学,文字也在里面学,图像也在里面学,会不会互相干扰呢,其实不仅不会互相干扰,在一定程度上还略微有帮助.北美已在引领这些发展,如果中国只低头用深度学习去解决应用问题,不去研究一个目的背后需要 ...

最新文章

  1. 为什么使用LM386可以直接收听调频电台节目?
  2. python进阶书籍推荐-豆瓣评分9.4!年度最值得推荐的Python进阶书
  3. 渲染状态的管理 (转)
  4. C# 连接MySQL错误给定关键字不在字典中”,下载最新mysql.dll文件即可
  5. 第 2 节:前端面试指南 — HTML篇
  6. 云题库进入其它章节的办法 0925
  7. C#.Net 如何动态加载与卸载程序集(.dll或者.exe)0-------通过应用程序域AppDomain加载和卸载程序集...
  8. pku 1639 Picnic Planning 最小度限制生成树
  9. 复制百度文库内容方法
  10. 计算机信息安全专业代码0839,网络安全/信息安全专业大学排名(2017-2018-安全导航)...
  11. .asd文件如何恢复
  12. 艹,我竟然找到了克服「微信提示音」焦虑症的方法
  13. angularjs grunt uglify 报错
  14. 前端树形图(未完成完善,会持续更新)
  15. 一文看懂Lambda
  16. springboot基于微信小程序的选课系统毕业设计源码060000
  17. 魅族手机突然显示无服务器,魅族Flyme6是悟空请来的?Bug竟然有这么多?
  18. 利用ESP8266-12F实现与51单片机通信及温湿度传感器数据交互
  19. 搞大事! EABM社区和众多大牌经纪商强强联手合作
  20. The power of habits 1

热门文章

  1. <马哲>生产方式是社会发展的决定力量2017-12-27
  2. 云炬Android开发笔记 5-8文件下载功能设计与实现
  3. SiamMask:视频跟踪最高精度 (中科院王强大神作品)
  4. python中的函数定义问题
  5. 【CyberSecurityLearning 附】批处理命令拓展(netsh/netstat/net)
  6. SQL注入之union联合注入——sql-lab第一关(非常非常详细的过程)
  7. StringBoot设置了拦截器没有产生作用,页面没有拦截
  8. 用Python画一只蝙蝠
  9. Mysql8.0之后没有缓存功能
  10. springboot整合shiro-关于登出时,redis中缓存没有清理干净的问题