我的施工之路
虽然艰辛,却有读者们陪伴

Python 常用数据结构

此专题《盘点Python10大常用数据结构》目录:

  • 学习目的

  • 学习目标

  • 1 list

  • 2 tuple

  • 3 set

  • 4 dict

  • 5 deque

  • 6 Counter

  • 7 OrderedDict

  • 8 heapq

  • 9 defaultdict

  • 10 ChainMap

  • 总结

学习目的

这个专题,尽量使用最精简的文字,借助典型案例盘点Python常用的数据结构。

如果你还处于Python入门阶段,通常只需掌握listtuplesetdict这类数据结构,做到灵活使用即可。

然而,随着学习的深入,平时遇到实际场景变复杂,很有必要去了解Python内置的更加强大的数据结构dequeheapqCounterOrderedDictdefaultDictChainMap,掌握它们,往往能让你少写一些代码且能更加高效的实现功能。

学习目标

学习数据结构第一阶段:掌握它们的基本用法,使用它们解决一些基本问题;

学习第二阶段:知道何种场景选用哪种最恰当的数据结构,去解决题问题;

学习第三阶段:了解内置数据结构的背后源码实现,与《算法和数据结构》这门学问里的知识联系起来,打通任督二脉。

下面根据定义的这三个阶段,总结以下10种最常用的数据结构:

1 list

基本用法 废话不多说,在前面单独有一个专题详述了list的使用。

使用场景 list 使用在需要查询、修改的场景,极不擅长需要频繁插入、删除元素的场景。

实现原理 list对应数据结构的线性表,列表长度在初始状态时无需指定,当插入元素超过初始长度后再启动动态扩容,删除时尤其位于列表开始处元素,时间复杂度为O(n)

2 tuple

元组是一类不允许添加删除元素的特殊列表,也就是一旦创建后续决不允许增加、删除、修改。

基本用法 元组大量使用在打包和解包处,如函数有多个返回值时打包为一个元组,赋值到等号左侧变量时解包。

In [22]: t=1,2,3
In [23]: type(t)
Out[23]: tuple

实际创建一个元组实例

使用场景 如果非常确定你的对象后面不会被修改,则可以大胆使用元组。为什么?因为相比于list, tuple实例更加节省内存,这点尤其重要。

In [24]: from sys import getsizeof                                              In [25]: getsizeof(list())
Out[25]: 72 # 一个list实例占用72个字节In [26]: getsizeof(tuple())
Out[26]: 56 # 一个tuple实例占用56个字节

所以创建100个实例,tuple能节省1K多字节。

3 set

基本用法 set是一种里面不能含有重复元素的数据结构,这种特性天然的使用于列表的去重。

In [27]: a=[3,2,5,2,5,3]                                                        In [28]: set(a)
Out[28]: {2, 3, 5}

除此之外,还有知道set结构可用于两个set实例的求交集、并集、差集等操作。

In [29]: a = {2,3,5}                                                            In [30]: b = {3,4,6,2}                                                          In [31]: a.interp(b) # 求交集
Out[31]: {2, 3}

使用场景 如果只是想缓存某些元素值,且要求元素值不能重复时,适合选用此结构。并且set内允许增删元素,且效率很高。

实现原理 set在内部将值哈希为索引,然后按照索引去获取数据,因此删除、增加、查询元素效果都很高。

4 dict

基本用法 dict 是Python中使用最频繁的数据结构之一,字典创建由通过dict函数、{}写法、字典生成式等,增删查元素效率都很高。

d = {'a':1,'b':2} # {}创建字典# 列表生成式
In [38]: d = {a:b for a,b in zip(['a','b'],[1,2])}
In [39]: d
Out[39]: {'a': 1, 'b': 2}

使用场景 字典尤其适合在查询多的场景,时间复杂度为O(1). 如leetcode第一题求解两数之和时,就会使用到dict的O(1)查询时间复杂度。

同时,Python类中属性值等信息也都是缓存在__dict__这个字典型数据结构中。

但是值得注意,dict占用字节数是list、tuple的3、4倍,因此对内存要求苛刻的场景要慎重考虑。

In [40]: getsizeof(dict())
Out[40]: 248

实现原理 字典是一种哈希表,同时保存了键值对。

以上4种数据结构相信大家都已经比较熟悉,因此我言简意赅的介绍一遍。接下来再详细的介绍下面6种数据结构及各自使用场景,会列举更多的例子。

5 deque

基本用法 deque 双端队列,基于list优化了列表两端的增删数据操作。基本用法:

from collections import dequeIn [3]: d = deque([3,2,4,0])                                                    In [4]: d.popleft() # 左侧移除元素,O(1)时间复杂度
Out[4]: 3In [5]: d.appendleft(3) # 左侧添加元素,O(1)时间复杂度                                                       In [6]: d
Out[6]: deque([3, 2, 4, 0])

使用场景 list左侧添加删除元素的时间复杂度都为O(n),所以在Python模拟队列时切忌使用list,相反使用deque双端队列非常适合频繁在列表两端操作的场景。但是,加强版的deque牺牲了空间复杂度,所以嵌套deque就要仔细trade-off:

In [9]: sys.getsizeof(deque())
Out[9]: 640In [10]: sys.getsizeof(list())
Out[10]: 72

实现原理 cpython实现deque使用默认长度64的数组,每次从左侧移除1个元素,leftindex加1,如果超过64释放原来的内存块,再重新申请64长度的数组,并使用双端链表block管理内存块。

6 Counter

基本用法 Counter一种继承于dict用于统计元素个数的数据结构,也称为bag 或 multiset. 基本用法:

from collections import Counter
In [14]: c = Counter([1,3,2,3,4,2,2]) # 统计每个元素的出现次数
In [17]: c
Out[17]: Counter({1: 1, 3: 2, 2: 3, 4: 1})# 除此之外,还可以统计最常见的项
# 如统计第1最常见的项,返回元素及其次数的元组
In [16]: c.most_common(1)
Out[16]: [(2, 3)]

使用场景 基本的dict能解决的问题就不要用Counter,但如遇到统计元素出现频次的场景,就不要自己去用dict实现了,果断选用Counter.

需要注意,Counter统计的元素要求可哈希(hashable),换句话说如果统计list的出现次数就不可行,不过list转化为tuple不就可哈希了吗.

实现原理 Counter实现基于dict,它将元素存储于keys上,出现次数为values.

7 OrderedDict

基本用法 继承于dict,能确保keys值按照顺序取出来的数据结构,基本用法:

In [25]: from collections import OrderedDict                                    In [26]: od = OrderedDict({'c':3,'a':1,'b':2})                                  In [27]: for k,v in od.items(): ...:     print(k,v) ...:
c 3
a 1
b 2

使用场景 基本的dict无法保证顺序,keys映射为哈希值,而此值不是按照顺序存储在散列表中的。所以遇到要确保字典keys有序场景,就要使用OrderedDict.

实现原理 你一定会好奇OrderedDict如何确保keys顺序的,翻看cpython看到它里面维护着一个双向链表self.__root,它维护着keys的顺序。既然使用双向链表,细心的读者可能会有疑问:删除键值对如何保证O(1)时间完成?

cpython使用空间换取时间的做法,内部维护一个self.__map字典,键为key,值为指向双向链表节点的link. 这样在删除某个键值对时,通过__map在O(1)内找到link,然后O(1)内从双向链表__root中摘除。

8 heapq

基本用法 基于list优化的一个数据结构:堆队列,也称为优先队列。堆队列特点在于最小的元素总是在根结点:heap[0] 基本用法:

import heapq
In [41]: a = [3,1,4,5,2,1]                                                      In [42]: heapq.heapify(a) # 对a建堆,建堆后完成对a的就地排序
In [43]: a[0] # a[0]一定是最小元素
In [44]: a
Out[44]: [1, 1, 3, 5, 2, 4]In [46]: heapq.nlargest(3,a) # a的前3个最大元素
Out[46]: [5, 4, 3]In [47]: heapq.nsmallest(3,a) # a的前3个最小元素
Out[47]: [1, 1, 2]

使用场景 如果想要统计list中前几个最小(大)元素,那么使用heapq很方便,同时它还提供合并多个有序小list为大list的功能。

基本原理 堆是一个二叉树,它的每个父节点的值都只会小于或大于所有孩子节点(的值),原理与堆排序极为相似。

9 defaultdict

基本用法 defaultdict是一种带有默认工厂的dict,如果对设计模式不很了解的读者可能会很疑惑工厂这个词,准确来说工厂全称为对象工厂。下面体会它的基本用法。

基本dict键的值没有一个默认数据类型,如果值为list,必须要手动创建:

words=['book','nice','great','book']
d = {}
for i,word in enumerate(words):if word in d:d[word].append(i)else:d[word]=[i] # 显示的创建一个list

但是使用defaultdict:

from collections import defaultdict
d = defaultdict(list) # 创建字典值默认为list的字典
for i,word in enumerate(words):d[word] = i

省去一层if逻辑判断,代码更加清晰。上面defaultdict(list)这行代码默认创建值为list的字典,还可以构造defaultdict(set), defaultdict(dict)等等,这种模式就是对象工厂,工厂里能制造各种对象:list,set,dict...

使用场景 上面已经说的很清楚,适用于键的值必须指定一个默认值的场景,如键的值为list,set,dict等。

实现原理 基本原理就是调用工厂函数去提供缺失的键的值。后面设计模式专题再详细探讨。

10 ChainMap

基本用法 如果有多个dict想要合并为一个大dict,那么ChainMap将是你的选择,它的方便性体现在同步更改。具体来看例子:

In [55]: from collections import ChainMap                                       In [56]: d1 = {'a':1,'c':3,'b':2}                                               In [57]: d2 = {'d':1,'e':5}                                                     In [58]: dm = ChainMap(d1,d2)                                                   In [59]: dm
Out[59]: ChainMap({'a': 1, 'c': 3, 'b': 2}, {'d': 1, 'e': 5})

ChainMap后返回一个大dict视图,如果修改其对应键值对,原小dict也会改变:


In [86]: dm.maps  # 返回一个字典list
Out[86]: [{'a': 2, 'c': 3, 'b': 2, 'd': 10}, {'d': 1, 'e': 5}]In [87]: dm.maps[0]['d']=20   # 修改第一个dict的键等于'd'的值为20                                                   In [88]: dm
Out[88]: ChainMap({'a': 2, 'c': 3, 'b': 2, 'd': 20}, {'d': 1, 'e': 5})In [89]: d1 # 原小dict的键值变为20
Out[89]: {'a': 2, 'c': 3, 'b': 2, 'd': 20}

使用场景  具体使用场景是我们有多个字典或者映射,想把它们合并成为一个单独的映射,有读者可能说可以用update进行合并,这样做的问题就是新建了一个内存结构,除了浪费空间外,还有一个缺点就是我们对新字典的更改不会同步到原字典上。

实现原理 通过maps便能观察出ChainMap联合多个小dict装入list中,实际确实也是这样实现的,内部维护一个lis实例,其元素为小dict.

总结

以上就是Python常用的10种数据结构,4种常用的基本结构,6种基于它们优化的适应于特定场景的结构,对它们的学习我将它们总结为三步。

当下定决心真心要为读者们奉献一些精品原创,且受到读者们的积极点赞、在看、转发反馈时,我将会有更大的动力持续的写下去。希望此专题对大家有帮助,欢迎点赞、在看、转发。

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑获取一折本站知识星球优惠券,复制链接直接打开:https://t.zsxq.com/662nyZF本站qq群1003271085。加入微信群请扫码进群(如果是博士或者准备读博士请说明):

【Python基础】盘点 Python 10 大常用数据结构(下篇)相关推荐

  1. Python 基础(6)(常用数据结构)

    https://www.toutiao.com/a6634514748694069763/ 2018-12-14 08:10:00 常用数据结构 1)元组 元组是一种静态的数据结构,无法修改,若要修改 ...

  2. 【Python基础】盘点 Python 10 大常用数据结构(上篇)

    我的施工之路 上图施工计划,已完成专题: 1我的施工计划 2数字专题 3字符串专题 4列表专题 5流程控制专题 6编程风格专题 7函数使用 8.面向对象编程(上篇) 9.面向对象编程(下篇) Pyth ...

  3. python有必要看数据结构_盘点 Python 10 大常用数据结构(上篇)

    我的施工计划,已完成专题: Python 常用数据结构 学习目的 这个专题,尽量使用最精简的文字,借助典型案例盘点Python常用的数据结构. 如果你还处于Python入门阶段,通常只需掌握list. ...

  4. 视频教程-扣丁学堂Python基础视频教程-Python

    扣丁学堂Python基础视频教程 十余年计算机技术领域从业经验,在中国电信.盛大游戏等多家五百强企业任职技术开发指导顾问,国内IT技术发展奠基人之一. 杨千锋 ¥99.00 立即订阅 扫码下载「CSD ...

  5. python基础语法--python语言及其应用

    python基础语法 python引言 python python语言是一种高级动态.完全面向对象的语言. python中函数.模块.数字.字符串都是对象. python完全支持继承.重载.派生.多继 ...

  6. 我的全栈之路-Python基础之Python概述与开发环境搭建

    我的全栈之路-Python基础之Python概述与开发环境搭建 我的全栈之路 1.1 信息技术发展趋势 1.2 浅谈计算机系统架构 1.2.1 计算机系统架构概述 1.2.2 计算机硬件系统 1.2. ...

  7. 【Python基础】Python爬虫的两套解析方法和四种信息提取方式

    Python爬虫 Author:Iouwill Machine Learning Lab 分享一篇往日旧文章,非常实用. 对于大多数朋友而言,爬虫绝对是学习python的最好的起手和入门方式.因为爬虫 ...

  8. Python基础了解 python自带IDLE编译

    目录 学习小标 学习产出: 前言 一.Python版本 二.语言运用的占比 2021年 6 月编程语言排行榜前 20名 三.Python的应用 1.Web开发 2.网络爬虫 3.大数据处理 4.人工智 ...

  9. 二十一. Python基础(21)--Python基础(21)

    二十一. Python基础(21)--Python基础(21) 1 ● 类的命名空间 #对于类的静态属性:     #类.属性: 调用的就是类中的属性     #对象.属性: 先从自己的内存空间里找名 ...

最新文章

  1. js调用ios的方法
  2. mysql数据库导出_MySQL数据库导入导出详解[转发]
  3. 5G 信令流程 — 5GC 的注册管理(RM,Registration Management)
  4. scrapy框架_Scrapy框架学习---Scrapy介绍(一)
  5. split 将字符串分割成字符串数组
  6. 解决IntelliJ创建Maven项目一直显Loading archetype list
  7. 智慧交通day02-车流量检测实现04:卡尔曼滤波器
  8. css-博客圆形头象的制作
  9. 零基础学前端可行吗?要如何学习呢?
  10. Web App 前端构建(纯净版)
  11. 牛客网SQL练习题(Mysql-8)
  12. 打通Linux脉络系列:进程、线程和调度-宋宝华-专题视频课程
  13. 移动办公平台忘记密码怎么办?移动办公平台下载
  14. Chango的数学Shader世界(十八)RayTrace三维分形(三)—— 完善,距离场软阴影
  15. amd linux显卡驱动,AMDAMD ATI Radeon Mobility FireGL 9.10显卡驱动官方正式版下载,适用于linux-驱动精灵...
  16. 【上网】微信能上网,谷歌浏览器上不了网,怎么解决?
  17. OCP 11G 051题库解析汇总链接
  18. 电商平台的开发需要注意的问题有哪些?
  19. 设计图标(logo)
  20. 知乎7w阅读!五面阿里拿下飞猪事业部offer,月薪30K

热门文章

  1. Excel制作图表的方法
  2. 如何消除网站安全的七大风险
  3. .NET 2.0 RC的一个Bug
  4. HDU-4059 The Boss on Mars 容斥定理
  5. 学会这些套路和用词,Discussion不愁没思路
  6. 机器人学习--MATLAB官网关于机器人方面的资料
  7. Xilinx IP解析之FIFO Generator v13.2
  8. JOptionPane提示框的一些常用方法
  9. php发表图片文章代码,最新PHP图片上传的一个例子的文章【延伸阅读】
  10. c语言邻接表的构建_C++实现有向图邻接表的构建