python统计中文字符_使用 Python 统计中文字符的数量
使用 Python 统计中文字符的数量
方法一,排除法
假设只有中英文字符:
import string
def str_count(str):
'''找出字符串中的中英文、空格、数字、标点符号个数'''
count_en = count_dg = count_sp = count_zh = count_pu = 0
for s in str:
# 英文
if s in string.ascii_letters:
count_en += 1
# 数字
elif s.isdigit():
count_dg += 1
# 空格
elif s.isspace():
count_sp += 1
# 中文,除了英文之外,剩下的字符认为就是中文
elif s.isalpha():
count_zh += 1
# 特殊字符
else:
count_pu += 1
print('英文字符:', count_en)
print('数字:', count_dg)
print('空格:', count_sp)
print('中文字符:', count_zh)
print('特殊字符:', count_pu)
s = 'dfajl!大家@发!# 管道·符了3 54沙3发开fs\][dj'
str_count(s)
方法二,范围判断
Unicode 中,基本中文字符处在一个范围区间,可以参考 汉字 Unicode 编码范围。写成代码就是:
def hans_count(str):
hans_total = 0
for s in str:
# 中文字符其实还有很多,但几乎都用不到,这个范围已经足够了
if '\u4e00' <= s <= '\u9fef':
hans_total += 1
return hans_total
s = 'dfajl!大家@发!# 管道·符了3 54沙3发开fs\][dj'
print(hans_count(s))
参考资料:
python统计中文字符_使用 Python 统计中文字符的数量相关推荐
- python统计行号_用Python实现两个文件的不同行的编号
title: 文件不同行 tags: python,IO,dict 比较两个文件在哪些行内容不同,返回这些行的编号,行号编号从1开始. 定义统计文件行数的函数 # 统计文件个数def statLine ...
- python情感分析语料库_利用Python实现中文情感极性分析
情感极性分析,即情感分类,对带有主观情感色彩的文本进行分析.归纳.情感极性分析主要有两种分类方法:基于情感知识的方法和基于机器学习的方法.基于情感知识的方法通过一些已有的情感词典计算文本的情感极性(正 ...
- python进行文本预处理_用python做NLP:中文文本预处理
数据挖掘入门与实战 公众号: datadw 一 得到原始文本内容 def FileRead(self,filePath): f = open(filePath) raw=f.read() retur ...
- python删除字符串中重复字符_从Python中删除字符串标点符号的最佳方法
似乎有一个比以下更简单的方法: 1 2 3import string s ="string. With. Punctuation?" # Sample string out = s ...
- 编辑python用什么输入法_用Python从0开始实现一个中文拼音输入法!
众所周知,中文输入法是一个历史悠久的问题,但也实在是个繁琐的活,不知道这是不是网上很少有人分享中文拼音输入法的原因,接着这次NLP Project的机会,我觉得实现一发中文拼音输入法,看看水有多深,结 ...
- window统计文本字节_在线字数统计工具-统计字符字节汉字数字标点符号-计算word文章字数...
位 位是信息技术中使用的术语,也称比特(bit).是最小的信息单位.Bit是二进制数字的缩写(BInarydigiT),因为位实在是太小了,用来表示大数目时不方便,所以有了字节(byte),一个在信息 ...
- window统计文本字节_在线字数统计工具-统计字符字节汉字数字标点符号-计算word文章字数-使用帮助-字的区别...
位,字,字节,字长,字符串,字符,字数区别及计算方法? 位 位是信息技术中使用的术语,也称比特(bit).是最小的信息单位.Bit是二进制数字的缩写(BInarydigiT),因为位实在是太小了,用来 ...
- python自定义拼音输入法_用Python从0开始实现一个中文拼音输入法
众所周知,中文输入法是一个历史悠久的问题,但也实在是个繁琐的活,不知道这是不是网上很少有人分享中文拼音输入法的原因,接着这次NLP Project的机会,我觉得实现一发中文拼音输入法,看看水有多深,结 ...
- python打开中文文件名_解决python打开中文文件名乱码的问题
解决python打开中文文件名乱码的问题 发布时间:2020-07-27 11:20:22 来源:亿速云 阅读:162 作者:清晨 小编给大家分享一下解决python打开中文文件名乱码的问题,相信大部 ...
- python酒店评论分析_使用kears分析中文酒店评论(肯定和否定),基于CNN和RNN
下载清华大学的宾馆评论数据集 from tensorflow import keras import os # 自动解压,新建review_sentiment目录 path = keras.utils ...
最新文章
- git保姆级入门(包含解决git仓库报错500的问题)
- linux 测试内存性能,Linux性能测试指标评估
- mesos-dns marathon-lb
- python笔记基础-python学习笔记之基础一(第一天)
- 转:关于CCDISK的优化
- 2008年初看的书[带简评]
- Nacos(十二)之Java SDK
- 房地产税迟早要来,而且会带来房价小涨。
- Linux下使用Nginx端口转发出现502错误的一种解决办法
- CSRmesh Application
- jsp session 的状态保持, cookie的跨域访问(一)
- 机器学习算法------6.4 模型评估(误差平方和、肘方法、轮廓系数法、CH系数)
- 同步Buck芯片的自举电容原理解析
- vue echarts饼状统计
- 大尺寸图片的性能和内存优化
- IOS开发音频与视频
- ZCU104开发板MIPI摄像头开发(详细介绍移植ZCU102example design)
- mysql是什么数据库
- idea不用鼠标写代码
- (附源码)springboot手工diy网站 毕业设计 310226