Unicode 通用类别:

http://msdn.microsoft.com/zh-cn/library/20bw873z(VS.80).aspx

类别 说明

Lu

字母,大写

Ll

字母,小写

Lt

字母,词首字母大写

Lm

字母,修饰符

Lo

字母,其他

Mn

标记,非间距

Mc

标记,间距组合

Me

标记,封闭

Nd

数字,十进制数

Nl

数字,字母

No

数字,其他

Pc

标点,连接符

Pd

标点,短划线

Ps

标点,开始

Pe

标点,结束

Pi

标点,前引号(根据用途可能表现为类似 Ps 或 Pe)

Pf

标点,后引号(根据用途可能表现为类似 Ps 或 Pe)

Po

标点,其他

Sm

符号,数学

Sc

符号,货币

Sk

符号,修饰符

So

符号,其他

Zs

分隔符,空白

Zl

分隔符,行

Zp

分隔符,段落

Cc

其他,控制

Cf

其他,格式

Cs

其他,代理项

Co

其他,私用

Cn

其他,未赋值(不存在任何字符具有此属性)

.NET Framework 提供其他类别,用于表示一组 Unicode 字符类别,如下表所示。

类别 表示

C

(所有控制字符)CcCfCsCoCn

L

(所有字母)LuLlLtLmLo

M

(所有附加符号标记)MnMcMe

N

(所有数字)NdNlNo

P

(所有标点)PcPdPsPePiPfPo

S

(所有符号)SmScSkSo

Z

(所有分隔符)ZsZlZp

UnicodeCategory 枚举

http://msdn.microsoft.com/zh-cn/library/system.globalization.unicodecategory.aspx 成员

  成员名称 说明
Lu UppercaseLetter 指示字符是大写字母。
Ll LowercaseLetter 指示字符是小写字母。
Lt TitlecaseLetter 指示字符是词首字母大写字母。
Lm ModifierLetter 指示字符是修饰符字母,它是独立式的间距字符,指示前面字母的修改。
Lo OtherLetter 指示字符是字母,但它不是大写字母、小写字母、词首字母大写或修饰符字母。
Mn NonSpacingMark 指示字符是非间距字符,这指示基字符的修改。
Mc SpacingCombiningMark 指示字符是间距字符,这指示基字符的修改并影响该基字符的标志符号的宽度。
Me EnclosingMark 指示字符是封闭符号,封闭符号是非间距组合字符,它环绕直到基字符(并包括基字符)的所有前面的字符。
Nd DecimalDigitNumber 指示字符是十进制数字,即在范围 0 到 9 内。
Nl LetterNumber 指示字符是由字母表示的数字,而不是十进制数字,例如,罗马数字 5 由字母“V”表示。
No OtherNumber 指示字符是数字,但它既不是十进制数字也不是字母数字,例如分数 1/2。
Zs SpaceSeparator 指示字符是空白字符,它不具有标志符号,但不是控制或格式字符。
Zl LineSeparator 指示字符用于分隔文本各行。
Zp ParagraphSeparator 指示字符用于分隔段落。
Cc Control 指示字符是控制代码,其 Unicode 值是 U+007F,或者位于 U+0000 到 U+001F 或 U+0080 到 U+009F 范围内。
Cf Format 指示字符是格式字符,格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。
Cs Surrogate 指示字符是高代理项还是低代理项。代理项代码值在范围 U+D800 到 U+DFFF 内。
Co PrivateUse 指示字符是专用字符,其 Unicode 值在范围 U+E000 到 U+F8FF 内。
Pc ConnectorPunctuation 指示字符是连接两个字符的连接符标点。
Pd DashPunctuation 指示字符是短划线或连字符。
Ps OpenPunctuation 指示字符是成对的标点符号(例如括号、方括号和大括号)之一的开始字符。
Pe ClosePunctuation 指示字符是成对的标点符号(例如括号、方括号和大括号)之一的封闭字符。
Pi InitialQuotePunctuation 指示字符是开始或前引号。
Pf FinalQuotePunctuation 指示字符是封闭或后引号。
Po OtherPunctuation 指示字符是标点,但它不是连接符标点、短划线标点、开始标点、结束标点、前引号标点或后引号标点。
Sm MathSymbol 指示字符是数学符号,例如“+”或“=”。
Sc CurrencySymbol 指示字符是货币符号。
Sk ModifierSymbol 指示字符是修饰符符号,这指示环绕字符的修改。例如,分数斜线号指示其左侧的数字为分子,右侧的数字为分母。
So OtherSymbol 指示字符是符号,但它不是数学符号、货币符号或修饰符符号。
Cn OtherNotAssigned 指示字符未被分配给任何 Unicode 类别。
 备注

此 UnicodeCategory 枚举用于支持 Char 方法,例如 IsUpper(Char)。这种方法可确定指定的字符是否属于特定的 Unicode 通用类别的成员。Unicode 通用类别用于定义字符的一般分类,即将字符指定为字母、十进制数字、分隔符、数学符号、标点符号等类型。

此枚举基于 Unicode 标准 5.0 版。有关更多信息,请参见位于 Unicode Character Database(Unicode 字符数据库)上的“UCD File Format”(UCD 文件格式)和“General Category Values”(通用类别值)副主题。

Unicode 标准定义以下方面:

代理项对是单个抽象字符的编码字符表示形式,此序列包含两个代码单元,第一个单元是高代理项,第二个单元是低代理项。高代理项是范围 U+D800 到 U+DBFF 中的 Unicode 码位,低代理项是范围 U+DC00 到 U+DFFF 中的 Unicode 码位。

组合字符序列是基字符和一个或多个组合字符的组合。代理项对表示基字符或组合字符。组合字符可以是间距字符或非间距字符。在呈现时,间距组合字符自身会占据一个间距位置,而非间距组合字符则不是这样。例如,音调字符就是非间距组合字符之一。

修饰符字母是独立式的间距字符,它与组合字符相似,指示前面字母的修改。

括号是非间距组合字符,它将直到基字符(并包括基字符)的前面的所有字符括起来。

格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。

Unicode 标准定义某些标点符号的若干变体。例如,连字符可以是表示一个连字符的若干代码值之一,如 U+002D(减号连字符)、U+00AD(软连字符)、U+2010(连字符)或 U+2011(不间断连字符)。这同样适用于短划线、空白字符和引号。

Unicode 标准还将代码分配给十进制数字的表示形式,这些表示形式特定于给定的书写符号或语言,例如 U+0030(数字零)和 U+0660(阿拉伯-印度数字零)。

統一碼 5.0.0 版區塊名稱表(Block Names for Unicode 5.0.0)

http://www.geocities.com/chukl000/unicode/unicode5-0-0.html

區塊位置
Block Positons
區塊名稱
Block Names
English Names 中文譯名
0000-007F Basic Latin 基本拉丁字母
0080-00FF Latin-1 Supplement 拉丁字母補充-1
0100-017F Latin Extended-A 拉丁字母擴充-A
0180-024F Latin Extended-B 拉丁字母擴充-B
0250-02AF IPA Extensions 國際音標擴充
02B0-02FF Spacing Modifier Letters 進格修飾字元
0300-036F Combining Diacritical Marks 組合音標附加符號
0370-03FF Greek and Coptic 希臘字母
0400-04FF Cyrillic 西里爾字母
0500-052F Cyrillic Supplement 西里爾字母補充
0530-058F Armenian 亞美尼亞文
0590-05FF Hebrew 希伯來文
0600-06FF Arabic 基本阿拉伯文
0700-074F Syriac 敘利亞文
0750-077F Arabic Supplement 阿拉伯文補充
0780-07BF Thaana 塔納文
07C0-07FF N'Ko  
0900-097F Devanagari 天城體梵文字母
0980-09FF Bengali 孟加拉文
0A00-0A7F Gurmukhi 古爾穆基文
0A80-0AFF Gujarati 古吉拉特文
0B00-0B7F Oriya 奧里亞文
0B80-0BFF Tamil 泰米爾文
0C00-0C7F Telugu 泰盧固文
0C80-0CFF Kannada 卡納達文
0D00-0D7F Malayalam 馬拉亞拉姆文
0D80-0DFF Sinhala 僧伽羅文
0E00-0E7F Thai 泰文
0E80-0EFF Lao 老撾文;寮文
0F00-0FFF Tibetan 藏文
1000-109F Myanmar 緬甸文
10A0-10FF Georgian 格魯吉亞文
1100-11FF Hangul Jamo 諺文字母
1200-137F Ethiopic 埃塞俄比亞文
1380-139F Ethiopic Supplement 埃塞俄比亞文補充
13A0-13FF Cherokee 切羅基文
1400-167F Unified Canadian Aboriginal Syllabics 加拿大土著統一音節文字
1680-169F Ogham 歐甘文
16A0-16FF Runic 北歐古文
1700-171F Tagalog 他加祿文
1720-173F Hanunoo 哈努諾文
1740-175F Buhid 布希德文
1760-177F Tagbanwa 塔格巴努亞文
1780-17FF Khmer 高棉文
1800-18AF Mongolian 蒙古文
1900-194F Limbu 林布文
1950-197F Tai Le 傣哪文;德宏傣文
1980-19DF New Tai Lue 新傣仂文
19E0-19FF Khmer Symbols 高棉符號
1A00-1A1F Buginese 布吉文
1B00-1B7F Balinese 巴厘文
1D00-1D7F Phonetic Extensions 音標擴充
1D80-1DBF Phonetic Extensions Supplement 音標擴充補充
1DC0-1DFF Combining Diacritical Marks Supplement 組合音標附加符號
1E00-1EFF Latin Extended Additional 拉丁字母擴充附加
1F00-1FFF Greek Extended 希臘文擴充
2000-206F General Punctuation 一般標點符號
2070-209F Superscripts and Subscripts 下標及上標
20A0-20CF Currency Symbols 貨幣符號
20D0-20FF Combining Diacritical Marks for Symbols 符號用組合附加符號
2100-214F Letterlike Symbols 似字母符號
2150-218F Number Forms 數字形式
2190-21FF Arrows 箭頭符號
2200-22FF Mathematical Operators 數學運算符號
2300-23FF Miscellaneous Technical 混合專門符號;零雜技術符號
2400-243F Control Pictures 控制圖像
2440-245F Optical Character Recognition 光學字元識別
2460-24FF Enclosed Alphanumerics 圈型字母數字
2500-257F Box Drawing 製表符
2580-259F Block Elements 區塊元件
25A0-25FF Geometric Shapes 幾何形狀
2600-26FF Miscellaneous Symbols 混合什錦符號;零雜符號
2700-27BF Dingbats 什錦符號
27C0-27EF Miscellaneous Mathematical Symbols-A 混合數學符號-A;零雜數學符號-A
27F0-27FF Supplemental Arrows-A 補充性箭頭符號-A
2800-28FF Braille Patterns 盲文;盲人點字
2900-297F Supplemental Arrows-B 補充性箭頭符號-B
2980-29FF Miscellaneous Mathematical Symbols-B 混合數學符號-B;零雜數學符號-B
2A00-2AFF Supplemental Mathematical Operators 補充性數學運算符號
2B00-2BFF Miscellaneous Symbols and Arrows 混合什錦符號和箭頭符號;零雜符號與箭頭
2C00-2C5F Glagolitic 格拉哥爾字母
2C60-2C7F Latin Extended-C 拉丁字母擴充-C
2C80-2CFF Coptic 科普特文
2D00-2D2F Georgian Supplement 格魯吉亞文補充
2D30-2D7F Tifinagh 提非納格字母
2D80-2DDF Ethiopic Extended 埃塞俄比亞文擴充
2E00-2E7F Supplemental Punctuation 補充性標點符號
2E80-2EFF CJK Radicals Supplement 中日韓部首補充
2F00-2FDF Kangxi Radicals 康熙部首
2FF0-2FFF Ideographic Description Characters 漢字結構描述字符
3000-303F CJK Symbols and Punctuation 中日韓符號和標點
3040-309F Hiragana 平假名
30A0-30FF Katakana 片假名
3100-312F Bopomofo 注音符號
3130-318F Hangul Compatibility Jamo 諺文相容字母
3190-319F Kanbun 漢文標註號
31A0-31BF Bopomofo Extended 注音符號擴充
31C0-31EF CJK Strokes 中日韓筆畫部件
31F0-31FF Katakana Phonetic Extensions 片假名音標擴充
3200-32FF Enclosed CJK Letters and Months 括號中日韓字母及月份;圈型中日韓字母及月份
3300-33FF CJK Compatibility 中日韓相容字元
3400-4DBF CJK Unified Ideographs Extension A 中日韓統一表意文字擴充A
4DC0-4DFF Yijing Hexagram Symbols 易經六十四卦象
4E00-9FFF CJK Unified Ideographs 中日韓統一表意文字
A000-A48F Yi Syllables 彝文音節
A490-A4CF Yi Radicals 彝文字母
A700-A71F Modifier Tone Letters 聲調符號
A720-A7FF Latin Extended-D 拉丁字母擴充-D
A800-A82F Syloti Nagri  
A840-A87F Phags-pa 八思巴字母
AC00-D7AF Hangul Syllables 諺文音節
D800-DB7F High Surrogates 高半代用區
DB80-DBFF High Private Use Surrogates 高半專用代用區
DC00-DFFF Low Surrogates 低半代用區
E000-F8FF Private Use Area 專用區
F900-FAFF CJK Compatibility Ideographs 中日韓相容表意文字
FB00-FB4F Alphabetic Presentation Forms 字母變體顯現形式
FB50-FDFF Arabic Presentation Forms-A 阿拉伯文變體顯現形式-A
FE00-FE0F Variation Selectors 字型變換選取器
FE10-FE1F Vertical Forms 豎式標點
FE20-FE2F Combining Half Marks 組合半形標示
FE30-FE4F CJK Compatibility Forms 中日韓相容形式
FE50-FE6F Small Form Variants 小寫變體
FE70-FEFF Arabic Presentation Forms-B 阿拉伯文變體顯現形式-B
FF00-FFEF Halfwidth and Fullwidth Forms 半形及全形字符
FFF0-FFFF Specials 特殊區域
10000-1007F Linear B Syllabary 線形文字B音節文字
10080-100FF Linear B Ideograms 線形文字B表意文字
10100-1013F Aegean Numbers 愛琴數字
10140-1018F Ancient Greek Numbers 古希臘數字
10300-1032F Old Italic 古意大利文
10330-1034F Gothic 哥特文
10380-1039F Ugaritic 烏加里特楔形文字
103A0-103DF Old Persian 古波斯文
10400-1044F Deseret 猶他大學音標
10450-1047F Shavian 肅伯納字母
10480-104AF Osmanya  
10800-1083F Cypriot Syllabary 塞浦路斯音節文字
10900-1091F Phoenician 腓尼基字母
10A00-10A5F Kharoshthi 佉盧字母
12000-123FF Cuneiform 楔形文字
12400-1247F Cuneiform Numbers and Punctuation 楔形文字數字及標點
1D000-1D0FF Byzantine Musical Symbols 東正教音樂符號
1D100-1D1FF Musical Symbols 音樂符號
1D200-1D24F Ancient Greek Musical Notation 古希臘音樂譜記號
1D300-1D35F Tai Xuan Jing Symbols 太玄經符號
1D360-1D37F Counting Rod Numerals 算籌記數式
1D400-1D7FF Mathematical Alphanumeric Symbols 數學用字母數字符號
20000-2A6DF CJK Unified Ideographs Extension B 中日韓統一表意文字擴充B
2F800-2FA1F CJK Compatibility Ideographs Supplement 中日韓相容表意文字補充
E0000-E007F Tags 語言編碼標籤
E0100-E01EF Variation Selectors Supplement 字型變換選取器補充
FFF80-FFFFF Supplementary Private Use Area-A 補充專用區-A
10FF80-10FFFF Supplementary Private Use Area-B 補充專用區-B

标准CJK文字
http://www.unicode.org/Public/UNIDATA/Unihan.html

http://blog.oasisfeng.com/2006/10/19/full-cjk-unicode-range/

Code point range Block name Release
U+3400..U+4DB5 CJK Unified Ideographs Extension A 3.0
U+4E00..U+9FA5 CJK Unified Ideographs 1.1
U+9FA6..U+9FBB CJK Unified Ideographs 4.1
U+F900..U+FA2D CJK Compatibility Ideographs 1.1
U+FA30..U+FA6A CJK Compatibility Ideographs 3.2
U+FA70..U+FAD9 CJK Compatibility Ideographs 4.1
U+20000..U+2A6D6 CJK Unified Ideographs Extension B 3.1
U+2F800..U+2FA1D CJK Compatibility Supplement 3.1

Unicode字符类相关推荐

  1. java 正则 u2E80_java正则表达式中的POSIX 字符类和Unicode 块和类别的类介绍

    假如现在有一个需求,要你用java语言来匹配出一个文本里面的所有(英文半角)标点符号,你会怎么写呢?我想大多数人应该是把这些符号都罗列出来, 如: !"#$%&'()*+,-./:; ...

  2. Unicode 属性类

    Unicode 属性类 目前,有一个提案,引入了一种新的类的写法\p{...}和\P{...},允许正则表达式匹配符合 Unicode 某种属性的所有字符. const regexGreekSymbo ...

  3. 【C#进阶二】C#中的正则表达式知识总结(字符转义/字符类/ 定位点/ 分组构造 /数量词/反向引用构造/替换构造/替代/正则表达式选项)(理论篇)

    文章目录 0. 正则表达式网站推荐 1.字符转义 2.字符类 3. 定位点 4. 分组构造 5.数量词 6.反向引用构造 7.替换构造 8.替代 9.正则表达式选项 正则表达式是对字符串操作的一种逻辑 ...

  4. C#从入门到精通____5.1字符类Char的使用

    5.1.2 Char类的使用 通过这行方法才可以操控字符,Char的常用字符如下: 用Is开头的方法大多是判断Unicode字符是否为某个类别 用To开头的方法大多是转换为其他Unicode字符 例5 ...

  5. 《Modern Python Cookbook》(Python经典实例)笔记 1.10 使用键盘上没有的Unicode字符

    案例背景: Python默认支持Unicode.可用的独立Unicode字符有几百万个,这些字符中绝大多数我们使用键盘无法直接输入. 很多计算机中的字体可能在设计时就没有考虑提供这些字符,特别是Win ...

  6. Unicode字符编码规范

    http://www.aoxiang.org 2006-4-2 10:48:02 Unicode是一种字符编码规范 . 先从ASCII说起.ASCII是用来表示英文字符的一种编码规范,每个ASCII字 ...

  7. Unicode字符编码分布表[全部]

    Unicode字符编码分布表[全部] |字号 订阅 Unicode字符编码分布表――语言文字类 欧洲字母 非洲文字 印度文字 东亚文字 中亚文字 (查阅组合·标记字符) 埃塞俄比亚文字 孟加拉字符(U ...

  8. 转:Unicode字符集和多字节字符集关系

    原文地址: http://my.oschina.net/alphajay/blog/5691 unicode.ucs-2.ucs-4.utf-16.utf-32.utf-8 http://stallm ...

  9. Unicode字符集和多字节字符集关系(一)

    另外可参考: 谈谈Unicode编码,简要解释UCS.UTF.BMP.BOM等名词 http://blog.csdn.net/smonster/archive/2008/10/31/3194587.a ...

最新文章

  1. IEEE 发布年终总结,AI 奇迹不再是故事
  2. 在 Linux 上使用 lspci 命令查看硬件情况
  3. 给你一个团队怎么带?抓住3要点,别做13件事,没人敢不服你
  4. Git常用命令和Github协同流程
  5. 1108轮播图和定时器this问题
  6. java--用 * 打印出各种图形(新手请进)
  7. 【渝粤教育】国家开放大学2018年秋季 1126t社会医学 参考试题
  8. [html] HTML5如何播放ts视频流?
  9. java定时器克隆方式,Java-DropWizard指标计量器与计时器
  10. IP路由故障关于BGP的疑问解答
  11. 算法 - 反转字符串
  12. 2021年各省高考试成绩查询,2021年各省高考成绩查询时间 什么时候出分
  13. 串珠问题(今日头条笔试)
  14. Abaqus有限元分析软件介绍
  15. linux 怎么格式化u盘写保护,u盘写保护无法格式化解决方法
  16. 【心理学】心理学效应
  17. Jfinal极速开发微信系列教程--------------Jfinal_weixin demo的使用分析
  18. 贝叶斯法则与先验后验概率以及似然度的关系
  19. 语音识别技术的前世今生之前世
  20. Elasticsearch 第三方工具包Bboss的简单使用

热门文章

  1. 前端改变this指向的方法有哪些?如何判断this指向?
  2. Java面试通关神器,冲鸭,进大厂!
  3. 2023必须收藏的16个Python接单平台,做私活爽歪歪!附100个爬虫源码,拿去吧你
  4. UTM的XY坐标转换为WGS84经纬度坐标
  5. python画五环图_对Python安装及绘制五环图的初步认识,初识,pythonpython,与
  6. 数据同步工具的研究(实时)
  7. ev3和python哪个好_python+lego ev3的心得总结 随时更新
  8. word插入Java代码
  9. 怎么将服务器上的文件下载到本地电脑上
  10. 第7章 分析恶意的windows程序