加权随机算法一般应用在以下场景:有一个集合S,里面比如有A,B,C,D这四项。这时我们想随机从中抽取一项,但是抽取的概率不同,比如我们希望抽到A的概率是50%,抽到B和C的概率是20%,D的概率是10%。一般来说,我们可以给各项附一个权重,抽取的概率正比于这个权重。那么上述集合就成了:

{A:5,B:2,C:2,D:1}

方法一:

扩展这个集合,使每一项出现的次数与其权重正相关。在上述例子这个集合扩展成:

{A,A,A,A,A,B,B,C,C,D}

然后就可以用均匀随机算法来从中选取。

好处:选取的时间复杂度为O(1),算法简单。

坏处:空间占用极大。另外如果权重数字位数较大,例如{A:49.1 B:50.9}的时候,就会产生巨大的空间浪费。

方法二:

计算权重总和sum,然后在1到sum之间随机选择一个数R,之后遍历整个集合,统计遍历的项的权重之和,如果大于等于R,就停止遍历,选择遇到的项。

还是以上面的集合为例,sum等于10,如果随机到1-5,则会在遍历第一个数字的时候就退出遍历。符合所选取的概率。

好处:没有额外的空间占用,算法也比较简单。

坏处:选取的时候要遍历集合,时间复杂度是O(n)。

方法三:

可以对方法二进行优化,对项目集按照权重排序。这样遍历的时候,概率高的项可以很快遇到,减少遍历的项。

比较{A:5,B:2,C:2,D:1}和{B:2,C:2,A:5,D:1}

前者遍历步数的期望是5/10*1+2/10*2+2/10*3+1/10*4而后者是2/10*1+2/10*2+5/10*3+1/10*4。

好处:提高了平均选取速度。

坏处:需要进行排序,并且不易添加删除修改项。

解决:

这是能想到和能看到的最多的版本,不知道还没有更高效好用的算法。

#!/usr/bin/env python

# -*- coding: utf-8 -*-

#python2.7x

#random_weight.py

#author: orangleliu@gmail.com 2014-10-11

'''''

每个元素都有权重,然后根据权重随机取值

输入 {"A":2, "B":2, "C":4, "D":10, "E": 20}

输出一个值

'''

import random

import collections as coll

data = {"A":2, "B":2, "C":4, "D":6, "E": 11}

#第一种 根据元素权重值 "A"*2 ..等,把每个元素取权重个元素放到一个数组中,然后最数组下标取随机数得到权重

def list_method():

all_data = []

for v, w in data.items():

temp = []

for i in range(w):

temp.append(v)

all_data.extend(temp)

n = random.randint(0,len(all_data)-1)

return all_data[n]

#第二种 也是要计算出权重总和,取出一个随机数,遍历所有元素,把权重相加sum,当sum大于等于随机数字的时候停止,取出当前的元组

def iter_method():

total = sum(data.values())

rad = random.randint(1,total)

cur_total = 0

res = ""

for k, v in data.items():

cur_total += v

if rad<= cur_total:

res = k

break

return res

def test(method):

dict_num = coll.defaultdict(int)

for i in range(100):

dict_num[eval(method)] += 1

for i,j in dict_num.items():

print i, j

if __name__ == "__main__":

test("list_method()")

print "-"*50

test("iter_method()")

一次执行的结果

A 4

C 14

B 7

E 44

D 31

--------------------------------------------------

A 8

C 16

B 6

E 43

D 27

问题:

例如我们要选从不同省份选取一个号码,每个省份的权重不一样,直接选随机数肯定是不行的了,就需要一个模型来解决这个问题。

简化成下面的问题:

字典的key代表是省份,value代表的是权重,我们现在需要一个函数,每次基于权重选择一个省份出来

{"A":2, "B":2, "C":4, "D":10, "E": 20}

python 加权随机算法_加权随机算法 - 飞儿飞的个人空间 - OSCHINA - 中文开源技术交流社区...相关推荐

  1. python 过采样 权重实现_不平衡数据集的处理 - osc_sqq5osi1的个人空间 - OSCHINA - 中文开源技术交流社区...

    一.不平衡数据集的定义 所谓的不平衡数据集指的是数据集各个类别的样本量极不均衡.以二分类问题为例,假设正类的样本数量远大于负类的样本数量,通常情况下通常情况下把多数类样本的比例接近100:1这种情况下 ...

  2. php 随机字节集,易语言字节集动态加密 - osc_zsm40sb6的个人空间 - OSCHINA - 中文开源技术交流社区...

    原理很简单: 字节集1(n位随机字节集) 字节集2(m位随机字节集) 被加密字节集=字节集1+被加密字节集+字节集2 被加密字后的字节集=加密(被加密字节集,密码) 解密后的字节集=解密(被解密字节集 ...

  3. python倒排索引实现_倒排索引原理和实现 - uncle_LLD的个人空间 - OSCHINA - 中文开源技术交流社区...

    关于倒排索引 搜索引擎通常检索的场景是:给定几个关键词,找出包含关键词的文档.怎么快速找到包含某个关键词的文档就成为搜索的关键.这里我们借助单词--文档矩阵模型,通过这个模型我们可以很方便知道某篇文档 ...

  4. python编程代码执行漏洞_代码执行漏洞 - 安全先师的个人空间 - OSCHINA - 中文开源技术交流社区...

    0x00 前言 最近发现的一个新站,不妨试试手. 0x01 基础信息 漏洞点:tp5 method 代码执行,payload如下 POST /?s=captcha_method=__construct ...

  5. python读写磁盘扇区数据有什么用_磁盘存放数据原理 - osc_v8xs2czi的个人空间 - OSCHINA - 中文开源技术交流社区...

    磁盘结构作用数据原理 拓扑图 盘面(side) 模型: 1.磁盘圆形盘面,一个磁盘内含有多个盘面. 2.层叠关系,每个盘面之间不会贴着. 3.第一个盘的正面成为0面,反面为1面:第二个盘正面为2面,反 ...

  6. python编程题说句心里话_说句心里话 A - osc_6kxooi0n的个人空间 - OSCHINA - 中文开源技术交流社区...

    说句心里话 A ‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬ ...

  7. java 全排列非递归算法_全排列的非递归算法 - osc_ivkc73ze的个人空间 - OSCHINA - 中文开源技术交流社区...

    1.全排列的定义和公式: 从n个数中选取m(m<=n)个数按照一定的顺序进行排成一个列,叫作从n个元素中取m个元素的一个排列.由排列的定义,显然不同的顺序是一个不同的排列.从n个元素中取m个元素 ...

  8. java顺序表冒泡排序_冒泡排序就这么简单 - Java3y的个人空间 - OSCHINA - 中文开源技术交流社区...

    冒泡排序就这么简单 在我大一的时候自学c语言和数据结构,我当时就接触到了冒泡排序(当时使用的是C语言编写的).现在大三了,想要在暑假找到一份实习的工作,又要回顾一下数据结构与算法的知识点了. 排序对我 ...

  9. c语言分治法求众数重数_分治法求众数 - osc_twlari2q的个人空间 - OSCHINA - 中文开源技术交流社区...

    分治法求众数 Problem Description 给定含有n个元素的多重集合S,每个元素在S中出现的次数称为该元素的重数.多重集S中重数最大的元素称为 众数.例如,S={1,2,2,2,3,5}. ...

最新文章

  1. apache属于什么类型的软件
  2. redis存10万条数据_redis详细介绍
  3. C指针原理(41)-递归(2)
  4. CF 132E 费用流
  5. 利用三维模型生成点云总结
  6. 25-60k/m | 湃道智能招聘
  7. 关于Breeze's MapHack 2.0的一些重要说明
  8. 1.10 理解人的表现
  9. UIScroll和UIPickView
  10. IDEA 打包忽略测试
  11. Keil MDK5硬件仿真之基本介绍
  12. 中华好诗词大学季第二季(一)
  13. Java-----关于IO流的总结
  14. mac电脑使用小技巧
  15. 现场测试安全帽检测系统win7版
  16. Vue 知识点汇总(下)--附案例代码及项目地址
  17. 苏黎世联邦理工学院计算机硕士申请条件,苏黎世联邦理工学院研究生申请条件...
  18. 一篇文章看明白什么是DV、OV、EV证书
  19. 2021-03-13 软件工程导论-自我简介
  20. mysql数据库历史语句提取_如何从MySQL数据库的不同表中提取创建语句?

热门文章

  1. Java千百问_06数据结构(014)_java数组如何存储在内存中
  2. GMF 教程 Mindmap 6
  3. mysql的InnoDB和MyISAM对比
  4. 用友软件动态密码安全认证解决方案
  5. OJ1032: 员工薪水
  6. 信息学奥赛一本通(2020:【例4.5】第几项)
  7. Easy Math(2018 ACM-ICPC 徐州赛区网络赛 D)
  8. 树形结构 —— 并查集 —— 并查集的删除操作
  9. 配对碱基链(信息学奥赛一本通-T1135)
  10. 12 FI配置-财务会计-分配会计核算原理至分类帐组