• Stream概述

    • DBMS的区别
    • Stream模型
    • Query种类
    • 应用
  • Sliding Windows
    • 简介
    • 例子
  • Bloom Filter
    • motivation
    • Continued
    • LookUp
    • Performance
  • Sampling a Stream
    • motivation
    • 原因与解决
    • 其他

“Streams” are data inputs to a system that arrive at a very high rate,typically too fast to do anything significant with each arriving input.
Examples include data beamed down from a satellite, or click streams for a en necessary to accept a less-than-accurate answer to questions such as “how is stream?” .

Stream概述

遇到的主要问题是:同一时刻来的数据太多,一方面来不及存储到DB中,另一方面来不及处理和计算。
所以,问题的核心是抽样,不必先保存所有stream在计算。

一方面,可以实时计算,老的就扔了,比如sliding window;另一方面,可以对stream抽样,选取研究的关键变量,减少数据量。

DBMS的区别

Stream模型

Query种类

应用

Sliding Windows

就像一个滑窗,每进来一个数据只计算当前数据,不需要重复计算之前的数据,增快了速度。

简介

例子

Bloom Filter

motivation

sliding window的区别,不仅仅只看一个window,而是关心整个stream.

爬虫的时候,已经爬过的URL需要放在一个list中。这样当新的URL进入时,判断是否已经爬过。

但是,当list中的URL很多的时候,查询相当费时间O(N∗M)O(N*M)。
即使用HASH-TABLE,只能减少单个URL查询的时间,但是返回的URL很多,这样还是很消耗时间的。

所以,需要一定的手段对URL进行过滤。

Continued

LookUp

Performance

positive定义为list中已经存在的url。
那么,Bloom Filter会有一定的false positive,即把没有看过的url当成看过的,但是整个问题不大,因为重要的网页一般会有很多url指向它,所以不必担心单个url的遗漏问题。
同时,他没有 false negtive,即不会把看过的当成没看过,这样就可以保证爬虫的效率,不会重复爬相同的url。

false positive的概率与bit的个数还有hash function的个数有关。
试想,如果1的比率很高的话,那么false positive的概率变回很大。因此,增大bit的个数和hash-function的个数,可以有效地减少false positive

Sampling a Stream

motivation

简单的random sample无法完成对于unique query fraction的查询,往往会高估了这个值。

原因与解决

其他

MMD_3b_StreamAlgorithms相关推荐

最新文章

  1. 一文简单弄懂tensorflow_【TensorFlow】一文弄懂CNN中的padding参数
  2. 用一个实际例子理解Docker volume工作原理 1
  3. Android之category
  4. 百度地图SDK使用注意其代理的处理
  5. 后缀数组(bzoj 1031: [JSOI2007]字符加密Cipher)
  6. Html文档与基本语法和规范
  7. 关于Bmob后端云的使用
  8. python动态规划爬楼梯_Python走楼梯问题解决方法示例
  9. Arduino 控制RFID读写器读写 IC卡
  10. containsString和rangeOfString
  11. php如何实现众筹,PHP众筹系统这三点一定要注意
  12. python江红第五章课后答案_第五章课后习题参考答案
  13. 关于虚拟机检测技术的研究
  14. 理财入门:基金(简述,主要是指数基金)
  15. Adobe Illustrator软件安装下载
  16. 关于字符型变量的几点说明
  17. 转换 JSON API 用 Chopper 和 JsonSerializable
  18. 一个可以在线解密qmc和ncm等音乐加密格式的网站源码
  19. 到了40的程序员,都何去何从
  20. 睡眠质量如何提高?试试这几种方法

热门文章

  1. 嵌入式python 图形界面_有哪些好的嵌入式操作系统界面库(GUI library)?
  2. OpenCV4中的非典型深度学习模型
  3. PluckerNet:一种基于3D线匹配的配准网络(CVPR2021)
  4. ECCV 2020 论文大盘点-6D 位姿估计篇
  5. 基于点云的机器人抓取识别综述
  6. Hough Transform 霍夫变换检测直线
  7. Genome Biology | 基于RNA-seq的孟德尔疾病变异分析
  8. ICLR 2020 | ELECTRA:新型文本预训练模型
  9. bazel源码编译Tensorflow
  10. TaintDroid介绍