汉字Unicode编码范围

Unicode编码范围
u4e00~u9fff

  • U+4E00~U+9FA5 是最常用的范围,即名为:CJK Unified Ideographs 的区块,
  • U+9FA6~U+9FFF 之间的字符还属于空码,暂时还未定义,但不能保证以后不会被定义
def is_zh(char):""":param char:  单个字符:return:"""if u'\u4e00' <= char <= u'\u9fff':return Truereturn False

中英文字数统计

在Word文档中, 通过审阅 --> 统计字数可以计算出 字数, 中文字数, 非中文字数等,现在就用Python来实现。
示例:你好,World 4

# -*- coding: utf-8 -*-
import redef strQ2B(ustring):# 字符串全角转半角rstring = ""for uchar in ustring:inside_code=ord(uchar)if inside_code == 12288:    # 全角空格直接转换inside_code = 32elif (inside_code >= 65281 and inside_code <= 65374): # 全角字符(除空格)根据关系转化inside_code -= 65248rstring += chr(inside_code)return rstringdef querySimpleProcess(ss):# query预处理,排除中英文数字以外的字符,全部转为小写s1=strQ2B(ss)s2=re.sub(r"(?![\u4e00-\u9fff]|[0-9a-zA-Z])."," ",s1) s3=re.sub(r"\s+"," ",s2)return s3.strip().lower()# 判断是否包含中文
def check_contain_chinese(check_str):for ch in check_str:if u'\u4e00' <= ch <= u'\u9fff':return Truereturn False# 判断是否包含英文
def check_contain_english(check_str):for ch in check_str:if u'a' <= ch <= u'z' or u'A' <= ch <= u'Z':return Truereturn False# 删除字符串中的英文字母,以便统计字符数之用
def delete_letters(ss):rs = re.sub(r"[a-zA-Z]+","",ss)return rs# 先行空格分割,得到列表,再行处理列表中的每个元素
# 例:Smart校服广告曲=6、Disrespectful Breakup=2
# 异常:C哩C哩=3 ###处理不了
# 如果元素不包含中文,则该元素长度记为:1+数字个数
# 如果元素不包含英文,则该元素长度记为:中文字符数+数字个数,可以直接使用len()方法
# 如果元素同时包含中英文,则该元素长度记为:中文字符数+数字个数+1
def countCharacters(inputStr):tmpStr = querySimpleProcess(inputStr)str2list = tmpStr.strip().split(" ")if len(str2list) > 0:charsNum = 0  # 初始化字符计数for elem in str2list:chineseFlag = check_contain_chinese(elem)englishFlag = check_contain_english(elem)if englishFlag == False:  # 不包含英文charsNum = charsNum + len(elem)continueelse:  # 包含英文elem = delete_letters(elem)charsNum = charsNum + 1 + len(elem)return charsNumreturn 0

汉字 Unicode编码范围及 计算文本的中文英文字数相关推荐

  1. 汉字 Unicode 编码范围

    一.汉字Unicode 编码范围 U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F 4e00一丁丂七丄丅丆万丈三上下丌不与丏 4e10丐丑丒专且丕世丗丘丙业丛东丝丞丟 4e20丠両 ...

  2. JavaScript汉字Unicode编码相互转换

    关键字:JavaScript 汉字转换为Unicode编码 Unicode编码转换为汉字 JavaScript 汉字Unicode编码相互转换代码. JavaScript库 -JavaScript v ...

  3. 汉字编码(【Unicode】 【UTF-8】 【Unicode与UTF-8之间的转换】 【汉字 Unicode 编码范围】【中文标点Unicode码】【GBK编码】【批量获取汉字UNICODE码】)

    参考博客: Unicode与UTF-8互转(C语言实现):http://blog.csdn.net/tge7618291/article/details/7599902 汉字 Unicode 编码范围 ...

  4. 049_汉字Unicode编码范围

    1. Unicode是全球文字统一编码.它把世界上的各种文字的每一个字符指定唯一编码, 实现跨语种.跨平台的应用. 2. 中文用户最常接触的汉字编码是Unicode.中文字符数量巨大, 日常使用的汉字 ...

  5. 常见汉字Unicode编码

    常见汉字: 1 的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会家可下而过天去能对小多然于心学么之都好看起发当没成只如事把还用第样道想作种开美总从无情己面最女但现前些 ...

  6. 常用汉字unicode编码

    包含汉字: 的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会家可下而过天去能对小多然于心学么之 都好看起发当没成只如事把还用第样道想作种开美总从无情己面最女但现前些所 ...

  7. android 汉字 unicode编码,Android解析UniCode编码

    前言 从网络获取JSON信息的时候,有时我们会获取到一些不知名的东西,比如下面的情况就是我获取的json信息: 可以看到artist_name我所希望的是歌手的名字,结果出来的却是一堆不知道什么东西的 ...

  8. 汉字Unicode编码

    本篇文章转载自:http://joedanny.iteye.com/blog/156903 这里是几个主要非英文语系字符范围(google上找到的): [plain]  view plain copy ...

  9. Unicode 字符编码表|汉字Unicode编码的区间为:0x4E00→0x9FA5

    十进制 十六进制  字符数 编码分类(中文) 编码分类(英文) 起始 终止 起始 终止 (个)     0 127 0000 007F 128 C0控制符及基本拉丁文 C0 Control and B ...

最新文章

  1. js变量后面加问号是什么_js没那么简单(1)-- 执行上下文
  2. c blowfish java,blowfish-golang加密与java解密
  3. yum(Fedora和RedHat以及SUSE中的Shell前端软件包管理器)命令详解
  4. 服务器打不QQ显示00001,QQ登录超时00001怎么处理?
  5. beego 使用github.com/astaxie/beego/session异常问题
  6. ant build.xml文件将使用到的属性放到一个额外的build.properties文件里
  7. Django-内置用户系统
  8. 【TensorFlow】TensorFlow从浅入深系列之十一 -- 教你深入理解卷积神经网络中的卷积层
  9. 多线程的那点儿事(之无锁队列)
  10. 程序员正在抛弃 Facebook
  11. Android 混淆大全一篇就够了
  12. python编程练习:爬虫爬取全国大江大河实时水情
  13. Python 离线安装 Extension Packages
  14. 电脑连WIFI网速慢,手机却很快
  15. 数组的entries()方法
  16. UG三轴产品编程3D图档-刀路图档550例
  17. pyquery 使用说明(支持python 3)
  18. Dual Band Wireless-AC 3165无线网卡 win10 无法开启热点 解决
  19. Ant Design vue 改变表格背景颜色
  20. 欧莱雅眉笔banner个人设计

热门文章

  1. Python读写EXCEL文件常用方法大全
  2. 网卡不支持承载网络(无法启动wifi热点)--解决办法
  3. RNA 25. SCI文章中只有生信没有实验该怎么办?
  4. 计算机怎么查看网络连接的地址,各种电脑系统如何查看连接路由器的登录地址是多少?...
  5. win32汇编 屏幕截图保存BMP 学习笔记第三篇之odbg调试
  6. DX9与DX11shader编写中SV_POSITION与POSITION和SV_Target与COLOR之间的区别(二)
  7. jdbc.url=jdbc:mysql://localhost:3306/test?useUnicode=truecharacterEncoding=UTF-8
  8. 接口需要让一个参数 可以传可不传 解决方案
  9. java中输入字符串并输入每个汉字的ASC码
  10. 京东 java 待遇_【深圳京东工资】java开发工程师待遇-看准网