本节你将看到关于字典dict和集合set更加深入的原理,尤其是关于散列在其中的作用,将回答以下问题:Python 里的 dict 和 set 的效率有多高?

为什么它们是无序的?

为什么并不是所有的 Python 对象都可以当作 dict 的键或 set 里的元素?

为什么 dict 的键和 set 元素的顺序是跟据它们被添加的次序而定的,

为什么不应该在迭代循环 dict 或是 set 的同时往里添加元素?

dict 和 set 的效率有多高

这里做了一个对比实验:对比容器的大小对 dict、set 或 list 的 in 运算符效率的影响。 实验的过程:创建了一个有 1000万个双精度浮点数的数组,名叫 haystack。另外还有一个包含了 1000 个浮点数的 needles数组,其中 500 个数字是从 haystack 里挑出来的,另外 500 个肯定不在 haystack 里。

实验的结果: - 最快的时间来自“集合交集花费时间” - 最糟糕的表现来自“列表花费时间”这一列,由于列表背后没有散列支持in运算,所以每次搜索都需要完整的循环一遍. - 不管查询有多少个元素的字典或集合,所耗费的时间都能忽略不计

为什么集合和字典查询如此之快?

import sys

import timeit

#SETUP='''

import array

selected = array.array('d')

with open('selected.arr','rb') as fp:

selected.fromfile(fp,{size})

if {container_tpye} is dict:

haystack = dict.fromkeys(selected,1)

else:

haystack = {container_tpye}(selected)

if {verbose}:

print(type(haystack),end=' ')

print('haystack:%10d' % len(haystack),end=' ')

needles = array.array('d')

with open('not_selected.arr','rb') as fp:

needles.fromfile(fp,500)

needles.extend(selected[::{size}//500])

if{verbose}:

print(' needles:%10d' % len(needles),end=' ')

#'''

字典中的散列表

散列表背后是什么

散列表:是一个稀疏数组

稀疏数组:总是有空白元素的数组 散列表里的单元通常叫作表元(bucket),就是最小的单元元素.

例如:dict字典散列表:每一个键值对就是一个表元,每个表元由两部分组成: - 一个是对键的引用 - 一个是对值的引用 既然是引用那么每个表元的空间大小是一致的,可以通过偏移量来读取某个表元.

python中的一个原则:保证大概还有三分之一的表元是空的,所以在快要达到这个阈值的时候,原有的散列表会被复制到一个更大的空间里面。 散列表几个特性,如下

散列值和相等性

散列值:把一个对象放入散列表,那么首先要计算这个元素键的散列值,通过hash()来获得.内置的 hash() 方法可以用于所有的内置类型对象。

如果两个对象在比较的时候是相等的,那它们的散列值必须相等,否则散列表就不能正常运行了。

如果 1 == 1.0 为真,那么 hash(1) == hash(1.0) 也必须为真

散列表的算法

为了获取 my_dict[search_key] 背后的值,散列表的具体的算法的流程如下: - Python 首先会调用 hash(search_key) 来计算search_key 的散列值,把这个值最低的几位数字当作偏移量,在散列表里查找表元(具体取几位,得看当前散列表的大小)。 - 若找到的表元是空的,则抛出 KeyError 异常。 - 若不是空的,则表元里会有一对 found_key:found_value。

a = 1

b = 1.0

c = 1.0001

d = 1.0002

print(hash(a))

print(hash(b))

print(hash(c))

print(hash(d))

1

1

230584300921345

461168601842689

散列表给dict带来的优缺点

键必须是可散列的

可散列的对象需要符合如下三个要求: - 支持 hash() 函数,并且通过 hash() 方法所得到的散列值是不变的 - 支持通过 eq() 方法来检测相等性 - 若 a == b 为真,则 hash(a) == hash(b) 也为真

*所有由用户自定义的对象默认都是可散列的,因为它们的散列值由 id() 来获取

字典在内存上的开销巨大

由于字典使用了散列表,而散列表又必须是稀疏的.

键查询很快

dict 的实现是典型的空间换时间:字典类型有着巨大的内存开销,但它们提供了无视数据量大小的快速访问——只要字典能被装在内存里。

键的次序取决于添加顺序

当往 dict 里添加新键而又发生散列冲突的时候,新键可能会被安排存放到另一个位置。

往字典里添加新键可能会改变已有键的顺序

无论何时往字典里添加新的键,Python 解释器都可能做出为字典扩容的决定。扩容导致的结果就是要新建一个更大的散列表,并把字典里已有的元素添加到新表里。

不要对字典同时进行迭代和修改。

DIAL_CODES = [

(86, 'China'),

(91, 'India'),

(1, 'United States'),

(62, 'Indonesia'),

(55, 'Brazil'),

(92, 'Pakistan'),

(880, 'Bangladesh'),

(234, 'Nigeria'),

(7, 'Russia'),

(81, 'Japan'),

]

d1 = dict(DIAL_CODES)

print('d1:',d1.keys())

d2 = dict(sorted(DIAL_CODES))

print('d2:',d2.keys())

# 数据元组的顺序是按照国家名字的英文拼写来决定的

d3 = dict(sorted(DIAL_CODES,key =lambda x:x[1]))

print('d3:',d3.keys())

#这些字典是相等的,因为它们所包含的数据是一样的

assert (d1 == d2 and d2 == d3)

set的实现以及导致的结果

set 和 frozenset 的实现也依赖散列表,但在它们的散列表里存放的只有元素的引用.集合里的元素必须是可散列的。

集合很消耗内存。

可以很高效地判断元素是否存在于某个集合。

元素的次序取决于被添加到集合里的次序。

往集合里添加元素,可能会改变集合里已有元素的次序。

分享关于人工智能,机器学习,深度学习以及计算机视觉的好文章,同时自己对于这个领域学习心得笔记。想要一起深入学习人工智能的小伙伴一起结伴学习吧!扫码上车!

python集合set底层原理_Python进阶11_字典dict和集合set的秘密相关推荐

  1. python中迭代器的实现原理_Python 进阶应用教程

    Python 中的迭代器实现原理 在数学中,集合表示由一个或多个确定的元素所构成的整体.在 Python 中,列表.元组.集合可以用于表示数学中的集合. 例如,分别使用列表.元组.集合表示了一个包含 ...

  2. python 底层原理_Python字典的核心底层原理讲解

    字典对象的核心是散列表.散列表是一个稀疏数组(总是有空白元素的数组),数组的每个单元叫做 bucket.每个 bucket 有两部分:一个是键对象的引用,一个是值对象的引用.所有 bucket 结构和 ...

  3. python 底层原理_Python 探针实现原理

    本文将简单讲述一下 Python 探针的实现原理. 同时为了验证这个原理,我们也会一起来实现一个简单的统计指定函数执行时间的探针程序. 探针的实现主要涉及以下几个知识点: sys.meta_path ...

  4. Java集合—ArrayList底层原理

    原文作者:0 errors 0 warnings 原文地址:用大白话告诉你ArrayList的底层原理 目录 一.数据结构 二.线程安全性 三.继承关系 四.构造方法 五.add()方法 六.扩容机制 ...

  5. Java集合—HashMap底层原理

    原文链接:最通俗易懂搞定HashMap的底层原理 HashMap的底层原理面试必考题.为什么面试官如此青睐这道题?HashMap里面涉及了很多的知识点,可以比较全面考察面试者的基本功,想要拿到一个好o ...

  6. Java集合框架底层原理

    Java集合框架 Java集合框架 List集合 ArrayList底层实现原理 ArrayList数组扩容技术(数组拷贝) 扩容大小 查询和删除 集合中的泛型 LinkedList Vector 线 ...

  7. python列表的实现原理_Python列表对象实现原理

    Python 列表对象实现原理 Python 中的列表基于 PyListObject 实现,列表支持元 素的插入.删除.更新操作,因此 PyListObject 是一个变长 对象(列表的长度随着元素的 ...

  8. python集合属性方法运算_Python基础__字典、集合、运算符

    之前讨论的字符串.列表.元组都是有序对象,本节则重点讨论无序对象:字典与集合. 一.字典 列表是Python中的有序集合,列表中的序指的是列表中的元素与自然数集形成了一个一一对应的关系.例如L=['I ...

  9. python set集合_Python字典(dict)和集合(set)

    想必大家都有查字典的经历吧,让我们再回顾一下查字典的步骤:根据拼音或者边旁找到这个字,然后翻到这个字对应的页数,就能看到这个字的详细解释啦. Python字典(dict)其实也是差不多的概念,在字典( ...

最新文章

  1. chrome出现adobe flash playe 不是最新版本
  2. 旷视孙剑团队提出Anchor DETR:基于Transformer的目标检测新网络
  3. 算法提高课-图论-单源最短路的综合应用-AcWing 342. 道路与航线:最短路dijkstra、拓扑排序 、综合题、好题
  4. 【行业】点餐App未来必须面对的三大难题
  5. Emacs高亮设置:Hi-Lock mode笔记
  6. 最短路dijkstra算法详解_最短路径问题---Dijkstra算法详解
  7. 一级调研员比三级调研员退休金高多少?
  8. 什么是“好的”测试用例?
  9. shell中的局部变量与全局变量
  10. 小强的HTML5移动开发之路(32)—— JavaScript回顾7
  11. qt中socket通信流程图_Qt学习 之 Socket通信
  12. 【相机标定系列】相机成像的理想模型原理,相机矩阵分解
  13. 我的世界电脑版 v1.14.0.68012
  14. 一枚普通前端平淡无奇的一年 - 2021年终总结
  15. 可以测试成果的背单词软件,实测背单词最好的软件排名,选了4款最管用的单词软件送给你!...
  16. waf 防火墙限制_WAF防火墙设备指标及参数说明
  17. 还在用Excel做报表?建议你试试这个数据填报系统_光点科技
  18. mybatis代码自动生成工具之maven插件mybatis-generator-maven-plugin(mybatis逆向工程)
  19. js-禁止微信内置浏览器调整字体大小
  20. Vim插件之vim-autoformat

热门文章

  1. zabbix自动发现redis端口并监控redis性能
  2. Android studio安装及故障排除
  3. 如何在JSP里添加删除cookie
  4. ASP.NET状态管理之五(Cookie)
  5. Shell 单行注释与多行注释
  6. C++11 移动语义与右值引用
  7. metinfo小于v6.2.0版本SQL盲注利用脚本
  8. IntelliJ IDEA的安装详解
  9. frameset标签设计页面
  10. 将实例的生成交给子类——工厂方法模式