字符集

字数

Unicode 编码

基本汉字

20902字

4E00-9FA5

基本汉字补充

74字

9FA6-9FEF

扩展A

6582字

3400-4DB5

扩展B

42711字

20000-2A6D6

扩展C

4149字

2A700-2B734

扩展D

222字

2B740-2B81D

扩展E

5762字

2B820-2CEA1

扩展F

7473字

2CEB0-2EBE0

康熙部首

214字

2F00-2FD5

部首扩展

115字

2E80-2EF3

兼容汉字

477字

F900-FAD9

兼容扩展

542字

2F800-2FA1D

PUA(GBK)部件

81字

E815-E86F

部件扩展

452字

E400-E5E8

PUA增补

207字

E600-E6CF

汉字笔画

36字

31C0-31E3

汉字结构

12字

2FF0-2FFB

汉语注音

43字

3105-312F

注音扩展

22字

31A0-31BA

1字

3007

# 有拼音的汉字

if SUPPORT_UCS4:

RE_HANS = re.compile(

r'^(?:['

r'\u3007' # 〇

r'\u3400-\u4dbf' # CJK扩展A:[3400-4DBF]

r'\u4e00-\u9fff' # CJK基本:[4E00-9FFF]

r'\uf900-\ufaff' # CJK兼容:[F900-FAFF]

r'\U00020000-\U0002A6DF' # CJK扩展B:[20000-2A6DF]

r'\U0002A703-\U0002B73F' # CJK扩展C:[2A700-2B73F]

r'\U0002B740-\U0002B81D' # CJK扩展D:[2B740-2B81D]

r'\U0002F80A-\U0002FA1F' # CJK兼容扩展:[2F800-2FA1F]

r'])+$'

)

else:

RE_HANS = re.compile( # pragma: no cover

r'^(?:['

r'\u3007' # 〇

r'\u3400-\u4dbf' # CJK扩展A:[3400-4DBF]

r'\u4e00-\u9fff' # CJK基本:[4E00-9FFF]

r'\uf900-\ufaff' # CJK兼容:[F900-FAFF]

r'])+$'

)

标签:编码,4E00,CJK,扩展,汉字,兼容,3400,Unicode

来源: https://www.cnblogs.com/jacen789/p/10825350.html

php 汉字unico编码范围,汉字 Unicode 编码范围相关推荐

  1. android 汉字 unicode编码,Android解析UniCode编码

    前言 从网络获取JSON信息的时候,有时我们会获取到一些不知名的东西,比如下面的情况就是我获取的json信息: 可以看到artist_name我所希望的是歌手的名字,结果出来的却是一堆不知道什么东西的 ...

  2. js文件\u开头的编码原来是unicode编码

    在js文件中发现一串编码,\u开头.起初以为是ASIIC码,也不是.utf-8编码也不是.后来,发现是unicode编码.支持中文和英文.很容易和URL编码混淆.例如,在浏览器地址栏中的空格变为%20 ...

  3. python3转为unicode编码_Python3的unicode编码转换成中文的问题及解决方案

    python中怎样将unicode转换成原来的中文?[这世界上一定有另一个小编做着小编不敢做的事过着小编想过的生活] 前端将中文编码后传到后台,后台对传来的数据进行json.dumps存入mysql数 ...

  4. unicode编码java_JAVA转化Unicode编码

    package yyl.example.basic.codec; import java.util.Locale; import java.util.regex.Matcher; import jav ...

  5. python unicode编码_python 中文unicode编码

    一. excel中写入中文报错UnicodeDecodeError : 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not ...

  6. java中转为整形的编码_java中Unicode编码转化为中文

    转自:https://www.cnblogs.com/clnchanpin/p/6892870.html public static String UnicodeToUtf8(String theSt ...

  7. 汉字编码(【Unicode】 【UTF-8】 【Unicode与UTF-8之间的转换】 【汉字 Unicode 编码范围】【中文标点Unicode码】【GBK编码】【批量获取汉字UNICODE码】)

    参考博客: Unicode与UTF-8互转(C语言实现):http://blog.csdn.net/tge7618291/article/details/7599902 汉字 Unicode 编码范围 ...

  8. 通过在操作系统中实际操作,学习和理解 Unicode 编码相关知识

    我们通过在操作系统里进行一些简单的联系,可以加深对 Unicode 编码这些基础知识的理解和记忆. Windows10 操作系统下,新建一个记事本文件,输入 123ABCabc 默认的 encodin ...

  9. Python 入门 26 —— ASCII 编码、Unicode 编码、 UTF-32、 UTF-16、 UTF-8、 GB2312 编码、 GBK 编码

    计算机存储和处理信息都是以一个8位的二进制字节为单位的,例如:0b 1111 0000.一个字母.汉字等如何用一个二进制的数(编码)来表示呢.在计算机发展初期,因为没有人能预料到计算机会有现在这么大的 ...

  10. 车牌、手机、身份证、等敏感信息 屏蔽 替换 、中文转unicode编码 函数

    应工作要求,需要对展示的内容进行敏感信息替换. 琢磨的一些时间,编写的函数匹配率还是比较高的. 顺便说下思路,使用的是正则匹配替换和字符串替换.函数可以再改进. 先把需要匹配的内容写好相应的正则,然后 ...

最新文章

  1. 一个Apache CollectionUtils.intersection 方法的简单问题
  2. 二次元少女生成器、会开车的神经网络...2019年最好的17个机器学习项目!
  3. 于XAML导入命名空间的代码
  4. 网络营销外包中那些超有效的网络营销方法有进一步了解过吗?
  5. CaaS环境下实践经验总结(二):监控系统部署
  6. 第二章 数组名是一个指针常量吗?
  7. java mvc 实际分层_SpringMVC体系分层模式原理图解
  8. 湖南人文科技学院没有计算机一级能毕业吗,在湖南人文科技学院读书真的是生不如死...
  9. hbuilder怎么做登录界面_新手会计不懂如何报税?一套标准网上报税流程演示,教你怎么纳税申报...
  10. 计算机协会小游戏,网页闯关小游戏闯关记录(一)ISA TEST
  11. 如何判断各种手机浏览器?
  12. Oracle补习班第五天
  13. redis主从、哨兵、集群的区别
  14. 基于opencv的身份证识别系统
  15. 《太极张三丰》原声音乐 320/mp3打包下载
  16. 使用ArcGIS实现地貌晕渲
  17. 论文阅读——Segment Medical Image Using U-Net Combining Recurrent Residuals and Attention
  18. Mikrotik路由器(routerOS)调试环境搭建
  19. Altium Designer 在PCB中添加 图片 Logo 或者丝印
  20. aiwi:如何称赞都不过分的革命性游戏

热门文章

  1. asp木马伪装成图片或其它,上传漏洞终极解决方法
  2. jquery 李南江老师jquery和ajax视频教程
  3. Oracle下载和安装教程
  4. Xamarin ios 设置支持在PP助手、XY苹果助手上查看该应用下的文件
  5. 动易 当前服务器不允许上传文件,动易网站详细安说明及常见疑难解答.doc
  6. 基于MATLAB OCR的发票识别系统
  7. Excel学习笔记:P22-时间格式、工龄与工时计算
  8. 看图计算机械加工工时,急求机械加工工艺编制和工时定额制定与核算软件!!!...
  9. 基于SpringBoot的行影旅行网
  10. 新能源汽车防撞预警系统FCW系统介绍