使用 Python 统计中文字符的数量

方法一,排除法

假设只有中英文字符:

import string

def str_count(str):

'''找出字符串中的中英文、空格、数字、标点符号个数'''

count_en = count_dg = count_sp = count_zh = count_pu = 0

for s in str:

# 英文

if s in string.ascii_letters:

count_en += 1

# 数字

elif s.isdigit():

count_dg += 1

# 空格

elif s.isspace():

count_sp += 1

# 中文,除了英文之外,剩下的字符认为就是中文

elif s.isalpha():

count_zh += 1

# 特殊字符

else:

count_pu += 1

print('英文字符:', count_en)

print('数字:', count_dg)

print('空格:', count_sp)

print('中文字符:', count_zh)

print('特殊字符:', count_pu)

s = 'dfajl!大家@发!# 管道·符了3 54沙3发开fs\][dj'

str_count(s)

方法二,范围判断

Unicode 中,基本中文字符处在一个范围区间,可以参考 汉字 Unicode 编码范围。写成代码就是:

def hans_count(str):

hans_total = 0

for s in str:

# 中文字符其实还有很多,但几乎都用不到,这个范围已经足够了

if '\u4e00' <= s <= '\u9fef':

hans_total += 1

return hans_total

s = 'dfajl!大家@发!# 管道·符了3 54沙3发开fs\][dj'

print(hans_count(s))

参考资料:

python统计中文字符_使用 Python 统计中文字符的数量相关推荐

  1. python统计行号_用Python实现两个文件的不同行的编号

    title: 文件不同行 tags: python,IO,dict 比较两个文件在哪些行内容不同,返回这些行的编号,行号编号从1开始. 定义统计文件行数的函数 # 统计文件个数def statLine ...

  2. python情感分析语料库_利用Python实现中文情感极性分析

    情感极性分析,即情感分类,对带有主观情感色彩的文本进行分析.归纳.情感极性分析主要有两种分类方法:基于情感知识的方法和基于机器学习的方法.基于情感知识的方法通过一些已有的情感词典计算文本的情感极性(正 ...

  3. python进行文本预处理_用python做NLP:中文文本预处理

    数据挖掘入门与实战  公众号: datadw 一 得到原始文本内容 def FileRead(self,filePath): f = open(filePath) raw=f.read() retur ...

  4. python删除字符串中重复字符_从Python中删除字符串标点符号的最佳方法

    似乎有一个比以下更简单的方法: 1 2 3import string s ="string. With. Punctuation?" # Sample string out = s ...

  5. 编辑python用什么输入法_用Python从0开始实现一个中文拼音输入法!

    众所周知,中文输入法是一个历史悠久的问题,但也实在是个繁琐的活,不知道这是不是网上很少有人分享中文拼音输入法的原因,接着这次NLP Project的机会,我觉得实现一发中文拼音输入法,看看水有多深,结 ...

  6. window统计文本字节_在线字数统计工具-统计字符字节汉字数字标点符号-计算word文章字数...

    位 位是信息技术中使用的术语,也称比特(bit).是最小的信息单位.Bit是二进制数字的缩写(BInarydigiT),因为位实在是太小了,用来表示大数目时不方便,所以有了字节(byte),一个在信息 ...

  7. window统计文本字节_在线字数统计工具-统计字符字节汉字数字标点符号-计算word文章字数-使用帮助-字的区别...

    位,字,字节,字长,字符串,字符,字数区别及计算方法? 位 位是信息技术中使用的术语,也称比特(bit).是最小的信息单位.Bit是二进制数字的缩写(BInarydigiT),因为位实在是太小了,用来 ...

  8. python自定义拼音输入法_用Python从0开始实现一个中文拼音输入法

    众所周知,中文输入法是一个历史悠久的问题,但也实在是个繁琐的活,不知道这是不是网上很少有人分享中文拼音输入法的原因,接着这次NLP Project的机会,我觉得实现一发中文拼音输入法,看看水有多深,结 ...

  9. python打开中文文件名_解决python打开中文文件名乱码的问题

    解决python打开中文文件名乱码的问题 发布时间:2020-07-27 11:20:22 来源:亿速云 阅读:162 作者:清晨 小编给大家分享一下解决python打开中文文件名乱码的问题,相信大部 ...

  10. python酒店评论分析_使用kears分析中文酒店评论(肯定和否定),基于CNN和RNN

    下载清华大学的宾馆评论数据集 from tensorflow import keras import os # 自动解压,新建review_sentiment目录 path = keras.utils ...

最新文章

  1. git保姆级入门(包含解决git仓库报错500的问题)
  2. linux 测试内存性能,Linux性能测试指标评估
  3. mesos-dns marathon-lb
  4. python笔记基础-python学习笔记之基础一(第一天)
  5. 转:关于CCDISK的优化
  6. 2008年初看的书[带简评]
  7. Nacos(十二)之Java SDK
  8. 房地产税迟早要来,而且会带来房价小涨。
  9. Linux下使用Nginx端口转发出现502错误的一种解决办法
  10. CSRmesh Application
  11. jsp session 的状态保持, cookie的跨域访问(一)
  12. 机器学习算法------6.4 模型评估(误差平方和、肘方法、轮廓系数法、CH系数)
  13. 同步Buck芯片的自举电容原理解析
  14. vue echarts饼状统计
  15. 大尺寸图片的性能和内存优化
  16. IOS开发音频与视频
  17. ZCU104开发板MIPI摄像头开发(详细介绍移植ZCU102example design)
  18. mysql是什么数据库
  19. idea不用鼠标写代码
  20. (附源码)springboot手工diy网站 毕业设计 310226

热门文章

  1. 解决iOS下拉回弹方法二
  2. Python零基础之自动登录12306
  3. c++英雄联盟_C联盟
  4. getopts函数简介
  5. Apache构建虚拟主机
  6. Latex报错:找不到 citesort.sty
  7. Haiwell Cloud Scada Designer 3
  8. 在微型计算机中cmos是什么,什么事cmos?
  9. 做好架构师,要懂微服务,汇总微服务架构落地的15种框架
  10. 【Linux编程】进程间通信(IPC)C语言实现