unicode 中日韩统一表意文字 java正则表达式
汉字正则表达式 ^[\u4e00-\u9fa5]{0,}$ 有点过时了
参考wiki:中日韩统一表意文字 :
长度大于4位的unicode 正则 需要 \x{h...h} 形式表示
public class PatternUtil {private PatternUtil() {}public static final String UNIHAN_PATTERN = "^[" +"\\u4E00-\\u9FA5" + //1993中日韩统一表意文字"\\u3007" + //1个汉字(U+3007,〇),于中日韩符号和标点区"\\uFA0E\\uFA0F\\uFA11\\uFA13\\uFA14\\uFA1F\\uFA21\\uFA23\\uFA24\\uFA27-\\uFA29" + //位于“兼容表意文字区”中但实则独一的汉字"\\u3004-\\u4DB5" + //中日韩统一表意文字扩展区A"\\x{20000}-\\x{2A6D6}" + //中日韩统一表意文字扩展区B"\\u9FA6-\\u9FB3\\u9FB4-\\u9FBB" + //HKSCS-2004中未加入ISO 10646的汉字和GB 18030-2000中未加入ISO 10646的印刷業常用的偏旁和字形部件"\\u9FBC-\\u9FC2\\u4039\\u9FC3" + //7个日语汉字,䀹拆分为䀹和鿃"\\x{2A700}-\\x{2B734}" + //中日韩统一表意文字扩展区C"\\u9FC4-\\u9FCB" + //2个日语用汉字、1个新增汉字、在HKSCS-2004推出后新增的5个香港汉字"\\x{2B740}-\\x{2B81D}" + //中日韩统一表意文字扩展区D 其中包括公安部身份证系统人名和地名用字31字"\\u9FCC" + //1个汉字(U+9FCC鿌)"\\x{2B820}-\\x{2CEA1}" + //中日韩统一表意文字扩展区E"\\u9FCD-\\u9FCF\\u4CA4\\u9FD0\\u9FD1-\\u9FD5" + //“急用汉字”:《通用规范汉字表》余下未收入的3个汉字,1个从䲤分离出来的字䲤,5个其他图书用字及化学元素用字"\\x{2CEB0}-\\x{2EBE0}" + //中日韩统一表意文字扩展区F"\\u9FD6-\\u9FEA" + //21个汉字"\\u9FEB-\\u9FEF" + // 5个汉字,前三个是新命名的化学元素用字,后两字来自日本"\\x{30000}-\\x{3134A}" + // 中日韩统一表意文字扩展区G"\\u9FF0-\\u9FFC\\u4DB6-\\u4DBF" + //急用科学与技术用字、10个需分离的汉字"\\x{2A6D7}-\\x{2A6DD}" + //昆曲工尺谱用字"\\x{31400}-\\x{33D1F}" + //预计放置小篆"\\x{33E00}-\\x{355FF}" + //预计放置甲骨文"]{0,}$";
}
java 字符转义不支持直接输入5位的unicode,也不支持大U表示,如需转义表示(通常是字体不支持时)使用Unicode代理对转义 进行test 测试
如\u2b740 需要转换为\uD86D\uDF40
Unicode代理对计算器
@Testpublic void pattern(){Assert.isTrue(Pattern.compile(PatternUtil.UNIHAN_PATTERN).matcher("﨏〇鿇鿈鿉鿊鿋㵥鿑鿒鿓鿔鿕" +"鿃龼龽龾龿鿀䜤鿂龴龵龶龷龸龹龺龻龦龧龨龩龪龫龬龭龮龯龰龱龲龳" +"﨎﨏﨑﨓﨔﨟﨡﨣﨤﨧﨨﨩鿅鿄鿆鿍鿎鿏䲤䲤鿑鿒鿓鿔鿕\uD86D\uDF40"+"中華人民共和國臺灣省").matches(),"汉字pattern测试失败");}
unicode 中日韩统一表意文字 java正则表达式相关推荐
- Unicode中日韩统一表意文字列表
今天连续转载了好多篇文章,上网发现了很多好文,呵呵!这不又有一个网站似乎是台湾的,"闲着没事"把中日韩所有Unicode字符表给张贴出来了,看着蛮长的其实还是很实用的呀,现在转载到 ...
- 中日韩统一表意文字(CJK Unified Ideographs)[转]
中日韩统一表意文字 中日韩统一表意文字 中日韩统一表 意文字(英语:CJK Unified Ideographs),目的是要把分别来自中文.日文.韩文.越文中,本质相同.形状一样或稍异的表意文字(主要 ...
- 字体研发新革命-unicode13.0全新发布,中日韩统一表意文字扩展G大区
字体研发新革命-unicode13.0全新发布,中日韩统一表意文字扩展G大区,据了解,目前中国汉语地区仅有逐浪字库(f.ziti163.com)做好了准备,并全面扩展为unicode 13,同时他们还 ...
- wxpython 如何在windows下同时显示unicode中日韩文
周海汉 /文 2010.1.6 python版本,python 2.6+,wxpython 2.8+ 问题提出 遇到wxpython 如何在windows下同时显示中文日文韩文越南拼音的问题. win ...
- php 正则表达式 匹配中日韩字符(GBK)
转载链接:http://www.cnblogs.com/ITEagle/archive/2013/01/14/2859775.html 首先是这些非英文字符的编码范围: 这里是几个主要非英文语系字符范 ...
- mysql 中日韩 乱码,mysql字符集乱码问题解决方法介绍
character-set-server/default-character-set:服务器字符集,默认情况下所采用的. character-set-database:数据库字符集. characte ...
- mysql 中日韩 乱码_mysql字符集及乱码问题
MySQL中涉及的几个字符集 character-set-server/default-character-set:服务器字符集,默认情况下所采用的. character-set-database:当 ...
- 利用iTextSharp填写中文(中日韩)PDF表单(完整解决方案)
或者说中日韩文)表单填写的问题,本不想回答这类问题,因为相关的注意事项都已经在我的博客里说了,但现在看来还是有必要再啰唆下了,如果再有问题的话,希望带着Money来问,拜托了. 下面这段代码根据iTe ...
- 中日韩大字符集文字编码的比较研究
http://www.yyxx.sdu.edu.cn/content/guojihuiyi/guojhy-yinbs.htm 中日韩大字符集文字编码的比较研究 尹宝生 潘峰 徐立军 年新 汤蓉 沈阳航 ...
最新文章
- 上海python培训班-上海哪家python培训班比较靠谱?
- 《第13章 猜拳游戏》
- 如何统一集体的所有人的yum环境(以阿里云为例)
- [教程]win10 ,ubuntu双系统安装避坑指南
- 异常查错java.net.SocketException: Connection reset
- Spring Boot + Spring-Kafka 异步配置
- 写博客一年多的一些感想
- 戴尔Dell EMC S5048-ON交换机光模块解决方案
- Linux的加密和安全
- echarts3d城市配置项
- MS5837-30BA 水深水压传感器简单介绍
- 医疗项目业务以及表设计介绍
- APPLE 电脑型号大全
- 如何在线批量进行PDF拆分
- php调用天气预报接口,PHP调用百度天气接口API实现查询实时天气
- 1200PLC和Modbus485主站DCS系统通讯
- MySQL数据库简介数据库介绍
- (65)-- 爬取58交友信息
- 测绘类专业计算机要学什么科目,测绘类专业选考科目要求是什么
- 不应发送ICMP差错报文的几种情况