以前写过一篇贴子是写中文在unicode中的编码范围 unicode中文范围,但写的不是很详细,今天再次研究了下unicode,并给出详细的unicode取值范围。

本次研究的unicode对象是unicode 5.2.0版本。现在最新的是6.0版

对于这次研究的unicode把编码分为以下几个平面(英文中是plane,可以认为就是不同的区位)

Unicode可以逻辑分为17平面(Plane),每个平面拥有65536( = 216)个代码点,虽然目前只有少数平面被使用。

平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP).
平面1 (10000–1FFFF): 多文种补充平面(Supplementary Multilingual Plane, SMP).
平面2 (20000–2FFFF): 表意文字补充平面(Supplementary Ideographic Plane, SIP).
平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP).
平面4 to 13 (40000–DFFFF)尚未使用
平面14 (E0000–EFFFF): 特别用途补充平面(Supplementary Special-purpose Plane, SSP)
平面15 (F0000–FFFFF)保留作为私人使用区(Private Use Area, PUA)
平面16 (100000–10FFFF),保留作为私人使用区(Private Use Area, PUA)

最有用的当然就是BMP平面0了编码从U+0000至U+FFFF。那里包含了几乎全部的常用字符。
unicode基本平面区的编码区间含义

为鉴于Unicode原有的16位空间不足以应用,于是从Unicode 3.1版本开始,设立了16个扩展字码空间,称为辅助平面,
使 Unicode 的可使用空间由6万多字增至约100万字。辅助平面字符要用上4字节来存储。
unicode中的几大区间

最后小结下:

1、现在网上大多数用于判断中文字符的是 U+4E00..U+9FA5 这个范围是只是“中日韩统一表意文字”这个区间,但这不是全部,如果要全部包含,则还要他们的扩展集、部首、象形字、注间字母等等;

2E80-A4CF 加上 F900-FAFF 加上 FE30-FE4F

其中 

2E80-A4CF 

包含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字根

F900-FAFF

中日朝兼容表意文字

FE30-FE4F

中日朝兼容形式

所以,一般用4E00-9FA5已经可以,如果要更广,则用2E80-A4CF  ||   F900-FAFF || FE30-FE4F

2、全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF

3、不要太关心简繁中文的区别,如果要明确非要简体中文可参考unicode中简体中文编码

原文请见:http://www.iteye.com/topic/977671

转载于:https://www.cnblogs.com/glamourousGirl/p/4714561.html

[转载]Unicode中对中文字符的编码相关推荐

  1. 网页编码与数据传递中的中文字符编码

    最近工作中遇到中文编码,中文参数传递,AJAX返回值包含中文乱码的问题,为此奋斗了一宿,有点心得,有点体会,总结如下,希望对迷惑于此中者有解惑之功效! 在网上一阵狠搜,编码函数的确是有,包括Javas ...

  2. 解决Python3中的中文字符编码的问题-亲测有效

    解决Python3中的中文字符编码的问题 一.原理篇: Unicode是一32位编码格式,不适合用来传输和存储,所以必须转换成utf-8,gbk等等.这篇文章主要介绍了Python3中的解决中文字符编 ...

  3. 正则表达式 - 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 - Python代码

    目录 1.乱码符号种类较少,用replace() 2.乱码字符种类较多,用re.sub() 3.提取字符串中的中文字符 4.提取字符串中的中文字符和数字 5.提取其他 数据清洗的时候一大烦恼就是数据中 ...

  4. 解决在全文搜索中搜索中文字符

    解决在全文搜索中搜索中文字符出错补丁:点击下载 http://www.artbbs.net/Demo/Dvbbs_Help/Help_Img/SQLx86.rar 解决中文字符出错问题: 方法一: 把 ...

  5. mysql向表中插中文显示,针对mysql数据库无法在表中插入中文字符的解决方案(彻底解决jav...

    针对mysql数据库无法在表中插入中文字符的解决方案(彻底解决jav 针对mysql数据库无法在表中插入中文字符的解决方案(彻底解决:java.sql.SQLException: Incorrect ...

  6. java中文字符乱码编码转换大全

    java中文字符乱码编码转换大全 2014-09-26 13:59 595人阅读 评论(0) 收藏 举报 本文章已收录于: 版权声明:本文为博主原创文章,未经博主允许不得转载. System.out. ...

  7. java 中文解码_java使用URLDecoder和URLEncoder对中文字符进行编码和解码

    摘要: URLDecoder 和 URLEncoder 用于完成普通字符串 和 application/x-www-form-urlencoded MIME 字符串之间的相互转换.在本文中,我们以使用 ...

  8. Java通过正则剔除乱码_正则表达式 - 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 - Python代码...

    目录 1.乱码符号种类较少,用replace() 2.乱码字符种类较多,用re.sub() 3.提取字符串中的中文字符 4.提取字符串中的中文字符和数字 5.提取其他 数据清洗的时候一大烦恼就是数据中 ...

  9. python django mysql写入中文乱码_解决django 向mysql中写入中文字符出错的问题

    之前使用django+mysql建立的一个站点,发现向数据库中写入中文字符时总会报错,尝试了修改settings文件和更改数据表的字符集后仍不起作用.最后发现,在更改mysql的字符集后,需要重建数据 ...

最新文章

  1. 洗衣小窍门集锦 [ZZ]
  2. HTTP请求分析工具Fiddler
  3. QT绘制散点图(1)
  4. 怎么截取网页全图_FastStone Capture长截图怎么使用?滚动截图教程
  5. [WCF Step by Step 读书笔记] Chapter01 WCF 介绍
  6. 华为云GaussDB深耕数字化下半场,持续打造数据库根技术
  7. go中的读写锁RWMutex
  8. 多精度数带余除法_《有余数的除法》教学设计
  9. hibernateTemplate.find或hibernateTemplate.save()执行操作没有反应,但是有sql语句
  10. Laravel 全文检索 Scout集成Algolia
  11. AD15使用出现的小问题
  12. 读书的作用--引用《儒道至圣》小说章节
  13. 【Educational Codeforces Round 61 (Rated for Div. 2) D.Stressful Training】二分
  14. 指令系统由计算机组成决定,《计算机组成原理》第5章指令系统.ppt
  15. JS实现闪烁星空效果
  16. 代码REVIEW的一般方法
  17. HDFS心跳机制--判断DN失联部分的源码解析
  18. mysql 查询echar 折现数据
  19. Base64编码/解码VB6超精简版(适用于中、英文)
  20. MeganeX VR原型体验:中心视觉清晰,畸变和IPD等细节待优化

热门文章

  1. Java Spring AOP
  2. C语言 main函数
  3. latex 数学公式
  4. git 应用 cherry-pick
  5. 数据结构之基于Java的链接队列实现
  6. python为csv文件添加表头_python读csv文件时指定行为表头或无表头的方法
  7. consul java 注册中心_Spring Cloud微服务架构实战之Consul注册中心02:consul入门案例...
  8. mysql指令按顺序排列_MySQL 排序 | 菜鸟教程
  9. 实现裸金属服务器的安全微分段
  10. python 有限域函数库_深入比特币之有限域运算