在一个给定长度的数组中随机等概率抽取一个数据很容易,但如果面对的是长度未知的海量数据流呢?蓄水池采样(Reservoir Sampling)算法就是来解决这个问题的, 它在分析一些大数据集的时候非常有用。

  • 基本概念

细看后,我们可以对其进行扩展,假如从未知或者很大样本空间随机地取k个数?

  类比下即可得到答案,即先把前k个数放入蓄水池,对第k+1,我们以k/(k+1)概率决定是否要把它换入蓄水池,换入时随机的选取一个作为替换项,这样一直做下去,对于任意的样本空间n,对每个数的选取概率都为k/n。也就是说对每个数选取概率相等。

  • 算法的正确证明

定理:该算法保证每个元素以 k / n 的概率被选入蓄水池数组。

证明:首先,对于任意的 i,第 i 个元素进入蓄水池的概率为 k / i;而在蓄水池内每个元素被替换的概率为 1 / k; 因此在第 i 轮第j个元素被替换的概率为 (k / i ) * (1 / k) = 1 / i。 接下来用数学归纳法来证明,当循环结束时每个元素进入蓄水池的概率为 k / n.

假设在 (i-1) 次迭代后,任意一个元素进入 蓄水池的概率为 k / (i-1)。有上面的结论,在第 i 次迭代时,该元素被替换的概率为 1 / i, 那么其不被替换的概率则为 1 - 1/i = (i-1)/i;在第i 此迭代后,该元素在蓄水池内的概率为 k / (i-1) * (i-1)/i = k / i. 归纳部分结束。

因此当循环结束时,每个元素进入蓄水池的概率为 k / n. 命题得证。

  • Java实现

 1 在一个给定长度的数组中随机等概率抽取一个数据很容易,但如果面对的是长度未知的海量数据流呢?蓄水池采样(Reservoir Sampling)算法就是来解决这个问题的, 它在分析一些大数据集的时候非常有用。
 2 基本概念
 3
 4 细看后,我们可以对其进行扩展,假如从未知或者很大样本空间随机地取k个数?
 5
 6   类比下即可得到答案,即先把前k个数放入蓄水池,对第k+1,我们以k/(k+1)概率决定是否要把它换入蓄水池,换入时随机的选取一个作为替换项,这样一直做下去,对于任意的样本空间n,对每个数的选取概率都为k/n。也就是说对每个数选取概率相等。
 7
 8
 9 算法的正确证明
10 定理:该算法保证每个元素以 k / n 的概率被选入蓄水池数组。
11
12 证明:首先,对于任意的 i,第 i 个元素进入蓄水池的概率为 k / i;而在蓄水池内每个元素被替换的概率为 1 / k; 因此在第 i 轮第j个元素被替换的概率为 (k / i ) * (1 / k) = 1 / i。 接下来用数学归纳法来证明,当循环结束时每个元素进入蓄水池的概率为 k / n.
13
14 假设在 (i-1) 次迭代后,任意一个元素进入 蓄水池的概率为 k / (i-1)。有上面的结论,在第 i 次迭代时,该元素被替换的概率为 1 / i, 那么其不被替换的概率则为 1 - 1/i = (i-1)/i;在第i 此迭代后,该元素在蓄水池内的概率为 k / (i-1) * (i-1)/i = k / i. 归纳部分结束。
15
16 因此当循环结束时,每个元素进入蓄水池的概率为 k / n. 命题得证。
17
18 Java实现
19 [java] view plain copy
20 import java.util.Arrays;
21 import java.util.Random;
22
23 public class ReservoirSamplingAlgorithm {
24     public static void main(String[] args) {
25         int k=10;
26         int n=1000;
27         int[] data=new int[n];
28         for(int i=0;i<n;i++){
29             data[i]=i;
30         }
31         int[] result=reservoirSampling(data,k);
32         System.out.println(Arrays.toString(result));
33     }
34
35     public static int[] reservoirSampling(int[] data,int k){
36         if(data==null){
37             return new int[0];
38         }
39         if(data.length<k){
40             return new int[0];
41         }
42         int[] result=new int[k];
43         int n=data.length;
44         for(int i=0;i<n;i++){
45             if(i<k){
46                 result[i]=data[i];<a href="http://www.cnblogs.com/HappyAngel/archive/2011/02/07/1949762.html" target="_blank">参考博客</a>
47             }else{
48                 int j=new Random().nextInt(i);
49                 if(j<k){
50                     result[j]=data[i];
51                 }
52             }
53         }
54         return result;
55     }
56 }
57
58
59
60 参考博客来源:参考博客

View Code

参考博客来源:参考博客

转载于:https://www.cnblogs.com/kincolle/p/8266651.html

蓄水池采样(Reservoir Sampling)相关推荐

  1. 蓄水池采样 Reservoir Sampling

    # coding:utf8 import random# 从n个数中采样k个数 def reservoir_sampling(n, k):# 所有数据pool = [i for i in range( ...

  2. 蓄水池取样(Reservoir sampling)

    蓄水池取样是一系列的随机算法,用于简单随机抽样,在一个有未知项(n项)的集合中不放回抽取k项.集合的大小(n项)对于算法来说是未知的,通常所有项(n项)太大无法放入主内存里.随着时间的推移,算法不断读 ...

  3. 水塘采样(Reservoir sampling)算法

    最近看了Flink中的rangePartition使用了水塘采样算法,因此参考维基百科详细了解了一下.采样的关键在于对每个元素的选取需要是等概率的.水塘采样其目的在于从包含n个项目的集合S中选取k个样 ...

  4. Reservoir Sampling 蓄水池采样算法

    https://blog.csdn.net/huagong_adu/article/details/7619665 https://www.jianshu.com/p/63f6cf19923d htt ...

  5. 浅谈流处理算法 (1) – 蓄水池采样

    转载自  浅谈流处理算法 (1) – 蓄水池采样 前言 现如今,"大数据 "已经不是什么新概念,"一千个人眼中有一千个大数据".社交网络,智能穿戴设备,智能家居 ...

  6. 蓄水池采样算法的python实现_蓄水池采样算法的python实现_蓄水池抽样及实现

    蓄水池抽样(Reservoir Sampling)是一个很有趣的问题,它能够在o(n)时间内对n个数据进行等概率随机抽取,例如:从1000个数据中等概率随机抽取出100个.另外,如果数据集合的量特别大 ...

  7. 蓄水池采样算法的python实现_蓄水池抽样及实现

    蓄水池抽样(Reservoir Sampling)是一个很有趣的问题,它能够在o(n)时间内对n个数据进行等概率随机抽取,例如:从1000个数据中等概率随机抽取出100个.另外,如果数据集合的量特别大 ...

  8. 蓄水池采样算法(Reservoir Sampling)原理,证明和代码

    有一个在大数据下很现实的例子: "给出一个数据流,这个数据流的长度很大或者未知.并且对该数据流中数据只能访问一次.请写出一个随机选择算法,使得数据流中所有数据被选中的概率相等." ...

  9. 蓄水池采样算法(Reservoir Sampling)

    问题描述 假定有数据个数未知的数据流,要求随机其中的选择kkk个数据,且保证每个数据选中的概率相等. 方案 先将前kkk个数据取出来放入结果集中,然后从第k+1k+1k+1个数据到来时开始替换,假设现 ...

最新文章

  1. 74HC595驱动程序
  2. 简单示例,VS2019调试C语言程序
  3. Apache https服务器配置笔记
  4. 在正确的方向坚持下去,一直坚持下去,直到有成果
  5. JDBC , 使用java来控制mysql。JavaWeb开发的分层设计-三层架:DAO层设计,连接池使用,类加载使用,配置...
  6. 自旋波matlab计算,[首藏作品](4865)从电子到磁振子,自旋波计算开启新篇章...
  7. 使用Jenkins / Hudson远程API检查作业状态
  8. vue2.0项目部署到服务器_vue项目运行npm run build打包后如何发布到服务器?
  9. Windows结束某个端口的进程
  10. java servlet init方法_Java HttpServlet.init方法代码示例
  11. 弹出打开蓝牙_iOS13隐藏特性 双蓝牙音频共享功能详解
  12. 计算机软考网络工程师英语,计算机软考网络工程师必备英语词汇全集
  13. 联想Y450电源管理无法调节屏幕亮度的解决办法
  14. linux让别人电脑蓝屏,愚人节必备,教你制作整人神器,用代码实现计算机蓝屏...
  15. 《从0到1:CTFer成长之路》 配套题目Web WP
  16. iOS进阶_地图上定位的标志——大头针
  17. 中国茶叶分类图(转载)
  18. 没有工作经验,没有的究竟是什么?
  19. 一个非IT人士修改网站的遍历之旅和心路历程
  20. 插入u盘计算机未响应,U盘插入win7电脑没反应如何解决 Win7插入U盘没反应怎么办...

热门文章

  1. 计算机科学讨论,第七章计算机科学讨论报告
  2. python调用高德api路径规划_Python调用高德API实现批量地址转经纬度并写入表格的功能...
  3. go mysql 数据 json,golang查询数据返回json
  4. 【Mybatis】sqlSessionTemplate.getConnection() 遇到 java.sql.SQLException: Connection is closed
  5. 【spring boot】ajax post提交遇到403
  6. Linux 利用yum源安装php7.0+nginx
  7. 安装博图v15每次让重启计算机,博途V15.1安装及无限重启和.net3.5SP1错误处理解决方法...
  8. 11年标致307多少钱_11优布劳幼兽红西柚精酿啤酒多少钱一瓶?
  9. linux 交叉编译 nginx,交叉编译nginx,luajit
  10. Linux环境下启动Tomcat太慢