【Python基础】Python之collections库-Counter
一、模块概述
1、模块作用
官方说法:collections模块实现了特定目标的容器,以提供Python标准内建容器dict ,list , set , 和tuple的替代选择。
通俗说法:Python内置的数据类型和方法,collections模块在这些内置类型的基础提供了额外的高性能数据类型,比如最常用的统计词频most_common()函数,又如基础的字典是不支持顺序的,collections模块的OrderedDict类构建的字典可以支持顺序,collections模块的这些扩展的类用处非常大,熟练掌握该模块,可以大大简化Python代码,提高Python代码逼格和效率,高手入门必备。
2、模块资料
关于该模块,官方的参考资料写的非常详细,也很有价值,大家可以参考
中文文档:https://docs.python.org/zh-cn/3/library/collections.html#module-collections
英文文档:https://docs.python.org/3/library/collections.html#module-collections
3、模块子类
用collections.__all__查看所有的子类,一共包含9个
import collections
print(collections.__all__)
['deque', 'defaultdict', 'namedtuple', 'UserDict', 'UserList','UserString', 'Counter', 'OrderedDict', 'ChainMap']
这个模块实现了特定目标的容器,以提供Python标准内建容器dict , list , set , 和tuple 的替代选择。
namedtuple() |
创建命名元组子类,生成可以使用名字来访问元素内容的tuple子类 |
deque |
类似列表(list)的容器,实现了在两端快速添加(append)和弹出(pop) |
ChainMap |
类似字典(dict)的容器类,将多个映射集合到一个视图里面 |
Counter |
字典的子类,提供了可哈希对象的计数功能 |
OrderedDict |
字典的子类,保存了他们被添加的顺序,有序字典 |
defaultdict |
字典的子类,提供了一个工厂函数,为字典查询提供一个默认值 |
UserDict |
封装了字典对象,简化了字典子类化 |
UserList |
封装了列表对象,简化了列表子类化 |
UserString |
封装了字符串对象,简化了字符串子类化(中文版翻译有误) |
二、计数器-Counter
一个计数器工具提供快速和方便的计数,Counter是一个dict的子类,用于计数可哈希对象。它是一个集合,元素像字典键(key)一样存储,它们的计数存储为值。计数可以是任何整数值,包括0和负数,Counter类有点像其他语言中的bags或multisets。简单说,就是可以统计计数,来几个例子看看就清楚了,比如
计算top10的单词
from collections import Counter
import re
text = 'remove an existing key one level down remove an existing key one level down'
words = re.findall(r'\w+', text)
Counter(words).most_common(10)
[('remove', 2),('an', 2),('existing', 2),('key', 2),('one', 2)('level', 2),('down', 2)] #计算列表中单词的个数
cnt = Counter()
for word in ['red', 'blue', 'red', 'green', 'blue', 'blue']:cnt[word] += 1
cnt
Counter({'red': 2, 'blue': 3, 'green': 1})
#上述这样计算有点嘛,下面的方法更简单,直接计算就行
L = ['red', 'blue', 'red', 'green', 'blue', 'blue']
Counter(L)
Counter({'red': 2, 'blue': 3, 'green': 1})
元素从一个iterable 被计数或从其他的mapping (or counter)初始化
from collections import Counter
#字符串计数
Counter('gallahad')
Counter({'g': 1, 'a': 3, 'l': 2, 'h': 1, 'd': 1})#字典计数
Counter({'red': 4, 'blue': 2})
Counter({'red': 4, 'blue': 2})#是个啥玩意计数
Counter(cats=4, dogs=8)
Counter({'cats': 4, 'dogs': 8})Counter(['red', 'blue', 'red', 'green', 'blue', 'blue'])
Counter({'red': 2, 'blue': 3, 'green': 1})
计数器对象除了字典方法以外,还提供了三个其他的方法:
1、elements()
描述:返回一个迭代器,其中每个元素将重复出现计数值所指定次。元素会按首次出现的顺序返回。如果一个元素的计数值小于1,elements() 将会忽略它。
语法:elements( )
参数:无
c = Counter(a=4, b=2, c=0, d=-2)
list(c.elements())
['a', 'a', 'a', 'a', 'b', 'b']
sorted(c.elements())
['a', 'a', 'a', 'a', 'b', 'b']
c = Counter(a=4, b=2, c=0, d=5)
list(c.elements())
['a', 'a', 'a', 'a', 'b', 'b', 'd', 'd', 'd', 'd', 'd']
2、most_common()
返回一个列表,其中包含n个最常见的元素及出现次数,按常见程度由高到低排序。如果 n 被省略或为None,most_common() 将返回计数器中的所有元素,计数值相等的元素按首次出现的顺序排序:
经常用来计算top词频的词语。
Counter('abracadabra').most_common(3)
[('a', 5), ('b', 2), ('r', 2)]Counter('abracadabra').most_common(5)
[('a', 5), ('b', 2), ('r', 2), ('c', 1), ('d', 1)]
3、subtract()
从迭代对象或映射对象减去元素。像dict.update() 但是是减去,而不是替换。输入和输出都可以是0或者负数。
c = Counter(a=4, b=2, c=0, d=-2)
d = Counter(a=1, b=2, c=3, d=4)
c.subtract(d)
c
Counter({'a': 3, 'b': 0, 'c': -3, 'd': -6})
#减去一个abcd
str0 = Counter('aabbccdde')
str0
Counter({'a': 2, 'b': 2, 'c': 2, 'd': 2, 'e': 1})str0.subtract('abcd')
str0
Counter({'a': 1, 'b': 1, 'c': 1, 'd': 1, 'e': 1}
4、字典方法
通常字典方法都可用于Counter对象,除了有两个方法工作方式与字典并不相同。
fromkeys(iterable)
这个类方法没有在Counter中实现。
update([iterable-or-mapping])
从 迭代对象 计数元素或者 从另一个 映射对象 (或计数器) 添加。像 dict.update() 但是是加上,而不是替换。另外,迭代对象应该是序列元素,而不是一个 (key, value) 对。
sum(c.values()) # total of all counts
c.clear() # reset all counts
list(c) # list unique elements
set(c) # convert to a set
dict(c) # convert to a regular dictionary
c.items() # convert to a list of (elem, cnt) pairs
Counter(dict(list_of_pairs)) # convert from a list of (elem, cnt) pairs
c.most_common()[:-n-1:-1] # n least common elements
+c # remove zero and negative counts
5、数学操作
这个功能非常强大,提供了几个数学操作,可以结合 Counter 对象,以生产 multisets (计数器中大于0的元素)。加和减,结合计数器,通过加上或者减去元素的相应计数。交集和并集返回相应计数的最小或最大值。每种操作都可以接受带符号的计数,但是输出会忽略掉结果为零或者小于零的计数。
c = Counter(a=3, b=1)
d = Counter(a=1, b=2)
c + d # add two counters together: c[x] + d[x]
Counter({'a': 4, 'b': 3})
c - d # subtract (keeping only positive counts)
Counter({'a': 2})
c & d # interp: min(c[x], d[x])
Counter({'a': 1, 'b': 1})
c | d # union: max(c[x], d[x])
Counter({'a': 3, 'b': 2})
单目加和减(一元操作符)意思是从空计数器加或者减去。
c = Counter(a=2, b=-4)
+c
Counter({'a': 2})
-c
Counter({'b': 4})
写一个计算文本相似的算法,加权相似
def str_sim(str_0,str_1,topn):topn = int(topn)collect0 = Counter(dict(Counter(str_0).most_common(topn)))collect1 = Counter(dict(Counter(str_1).most_common(topn))) jiao = collect0 & collect1bing = collect0 | collect1 sim = float(sum(jiao.values()))/float(sum(bing.values())) return(sim) str_0 = '定位手机定位汽车定位GPS定位人定位位置查询'
str_1 = '导航定位手机定位汽车定位GPS定位人定位位置查询' str_sim(str_0,str_1,5)
0.75
往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑
获取本站知识星球优惠券,复制链接直接打开:
https://t.zsxq.com/qFiUFMV
本站qq群704220115。加入微信群请扫码:
【Python基础】Python之collections库-Counter相关推荐
- Python基础-Python基础使用
Python基础-Python基础使用 1.Python解释器 在Python文件的开头加入以下代码就制定了解释器. #!/usr/bin/env python # _*_ coding:utf-8 ...
- python基础 python函数 函数概念 函数的多种参数 多种调用参数 装包 解包 函数代码块 函数的返回值
python基础 python函数 函数概念 函数的多种参数 多种调用参数 装包 解包 函数代码块 函数的返回值 一 .函数概念 函数是根据需要,将代码打包为代码块, 每一个代码块就可以封装为一个函数 ...
- Python基础--Python简介和入门
☞写在前面 在说Python之前,我想先说一下自己为什么要学Python,我本人之前也了解过Python,但没有深入学习.之前接触的语言都是Java,也写过一些Java自动化用例,对Java语言只能说 ...
- csdn新出炉的Python基础Python的简介和环境搭建和环境变量
一.前言 hello呀,大家好我叫涂九,今天呢想换中方式和大家唠唠,因为发现之前的文章写得有些乱,我的强迫症犯了,打算给大家从Python的基础开始讲起,今天我们主要讲Python简介和环境搭建和环境 ...
- 每日整理Python基础——python教程入门学习
01_Linux基础 1.操作系统的作用? 操作系统是配置在计算机硬件上的第一层软件,主要作用是管理好硬件设备. 2.Linux中根目录和家目录分别用什么表示? /表示根目录.~表示家目录 3.Lin ...
- Python 基础 —— Python程序员常犯的那些错误
1. 迭代时修改一个列表 删除列表中的奇数 >>>numbers = [i for i in range(10)] >>>numbers [0, 1, 2, 3, ...
- Python基础--------Python要点
目录 Python要点 一.Python语言概述 1.1Python语言的概念 1.2Python的特点 1.3Python的应用 二.Windows下Python环境的搭建 2.1Python解释器 ...
- python基础-python的字符串内建函数
python基础-字符串内建函数 文章目录 python基础-字符串内建函数 前言 常用的函数 1.center() 2.count() 3.endswith() 4.startswith() 5.s ...
- Python 基础 — Python 简介
前言 未来是数据的世界,而 python 是一门可以高效简洁处理数据的语言,博主打算花一些时间完成 python 学习的从 0 到 1.以此相关系列博客作为一个记录. 1. Python 简介 Pyt ...
最新文章
- git同一项目使用多个远程仓库
- Centos下chef安装、部署
- python进程多任务
- 网络传输层之TCP、UDP详解
- 帆软报表嵌入python程序_在线报表FineReport中如何进行嵌入式部署
- 货车定位服务器维护是什么意思,有关货车日常维护的主要内容
- 物联网卡产品的应用和拓展
- python123反素数_初学python之路-day01
- android实体键盘输入法,推荐一个实体键盘专用输入法,是对 autotext的改进
- Anylogic学习--------------数学函数
- java堆排序递归代码,无原理版,比较好理解
- 如何开启win10自带的五笔输入法,并把字库切换成五笔98版
- zoj 3141 - nie's Dog Biscuits
- MATLAB实现利用三个不共线的点绘制圆(包括圆心和半径的求解)
- 做到这一点,你也可以成为优秀的程序员(转)
- 《机器学习实战:基于Scikit-Learn、Keras和TensorFlow第2版》-学习笔记(8):降维
- 8253可编程定时/计数器芯片
- php.ini 配置优化,PHP.ini 性能安全优化 | Soo Smart!
- 实用文库类网站推荐,必须收藏,工作学习都需要
- 用途相似的标签:cite,q与blockquote
热门文章
- 研究:低智商男人易出轨
- python_45_目录编程
- 关于spring mybateis 定义resultType=java.util.HashMap
- MyBatis在insert插入操作时返回主键ID的配置
- Javascript——说说js的调试
- SQL Stored Procedure Generator
- .Net页面的生命周期(ZZ)
- Enterprise Library: Configuration Application Block类设计分析篇
- 研究性论文的图注应该怎么写?
- 转载:opencv错误rect错误