Unicode 文字块:

Basic Latin
基本拉丁语
0-127
ASCII 码,美式英语
Latin-1 Supplement
拉丁语补充-1
126-255

ISO Latin-1 前半部分结合Basic Latin 能处理丹麦语、荷兰语、英语、法罗群岛语、佛兰德语、德语、夏威夷语、冰岛语、印度尼西亚语、爱尔兰语、挪威语、葡萄牙语、西班牙语、斯瓦西里语和瑞典语
Latin Extended-A
拉丁文扩展集-A
256-383

该字符块增添了ISO 8859 字符集Latin-2、Latin-3、Latin-4 中的字符,而且是Basic Latin 和Latin-1 没有的字符。同它们结合能够编码南非荷兰语、法国布里多尼语、巴斯克语、加泰罗尼亚语、捷克语、世界语、爱沙尼亚语、法语、Friesland 语、格陵兰岛语、匈牙利语、拉脱维亚语、立陶宛语、马耳它语、波兰语、普罗旺斯语、罗马尼亚语、吉普塞语、斯洛伐克语、斯洛文尼亚语、土耳其语和威尔士语
Latin Extended-B
拉丁文扩展集-B
383-591

大部分字符用于扩展Latin 文字以处理使用非传统文字写的语言,包括许多非洲语言、克罗地亚连字符,与塞尔维亚古斯拉夫字母、中国的拼音和Latin-10中的Sami characters 相匹配

IPA 扩展字符集

 592-687

国际音标字母

间距调节字符 

686-767

通常能够改变前面字母发音的小符号

可识别的连接字符 

766-879 

不独立存在,一般与前面的字母连用(放置在上边)的可识别的记号,如:~、‘and ??

希腊 

880-1023

基于ISO 8859-7 的现代希腊语,同时提供古埃及语字符

古斯拉夫

 1024-1279

基于ISO 8859-5 上的语言,俄语和多数斯拉夫语(乌克兰语、Byelorussian 等),前苏联的许多非斯拉夫语言(Azerbaijani,Ossetian,卡巴尔德
语,Chechen,Tajik 等).几种语言(库尔德语,阿布哈西亚语)需要Latin 和古斯拉夫字母

美国

 1326-1423

美语

希伯来

 1424-1535

希伯来语(古典和现代)、依地语、Judezmo、早期美语。阿拉伯 1536-1791 阿拉伯语,波斯语、Pashto、Sindhi、库尔德语和早期土耳其语

梵文字母

 2304-2431

梵语,北印度语,尼泊尔语和印度次大陆语言,包括:Awadhi,Bagheli,Bhatneri,Bhili,Bihari,BrajBhasha,Chhattisgarhi,Garhwali,Gondi,Harauti,Ho,Jaipuri,KachchhiKanauji,Konkani,Kului,Kumaoni,Kurku,Kurukh,
Marwari,Mundari,Newari,Palpa,and Santali

孟加拉语

2432-2559

一种北印度文字,使用于印度的西孟加拉州和孟加拉国的孟加拉语、阿萨姆语、Daphla、Garo、Hallam、Khasi、Manipuri、Mizo、Naga、Munda、Rian、Santali

Gurmukhi 

2560-2687 

Punjabi

Gujarati 

2686-2815

Gujarati

Oriya 

2816-2943

Oriya、Khondi、Santali

泰米尔语

 2944-3071

泰米尔语和Badaga、使用于南印度、斯里兰卡、新加坡和马来西亚部分地区

Telugu 

3072-3199

Telugu、Gondi、Lambadi

埃纳德语

 3200-3327

埃纳德语、Tulu

Malalayam

 3326-3455

Malalayam

泰国语 

3584-3711

泰国语、Kuy、Lavna、巴利语

老挝语

 3712-3839

老挝语

西藏语 

3840-4031

喜玛拉雅语包括西藏语、Ladakhi 和Lahuli

乔治亚语 

4256-4351 乔治亚语,黑海边乔治亚前苏维埃共和国语

Hangul Jamo 

4352-4607

朝鲜、韩国音节的字母组成部分

Latin 的附加扩展集

 7680-7935

标准的Latin 字母如E 和Y 与可识别的记号组合在一起,除了用于越南语元音中,很少使用

希腊语扩展集

 7936-8191

希腊字母与可识别记号的组合,用于正统的希腊语中

通用的标点符号

 8192-8303

各种标点符号

上标和下标 

8304-8351

普通的上标和下标

货币符号 

8352-8399 货币符号,一般在别的地方找不到

用于符号的组合记号 

8400-8447 

给多个字符做记号

像字母的符号

 8446-8527 

像字母的符号,如™

数表 

8526-8591 

分数和罗马数字

箭头符号 

8592-8703

箭头符号

数学符号

 8704-8959

不常出现的数学运算符

技术杂项 

8960-9039

APL 编程语言需要的符号和其他各种技术符号

控制图形

 9216-9279

ASCII 控制字符图形,常用于调试

光学字符识别

 9280-9311

在打印支票上的OCR-A(光学字符识别)和MICR(磁性墨水字符识别)符号

附加字符 

9312-9471

放在圆和括号中的字母和数字

画方框字符 

9472-9599 

用于在等间距终端上画方框的字符

块元素 

9600-9631

用于DOS 和其他用途的等间距终端图形

几何形状 

9632-9727 

正方形、菱形、三角形等

杂项符号

 9726-9983

纸牌、象棋、占卜等

Dingbats 

9984-10175

Zapf Dingbat 字符

CJK 符号和标点 

12286-12351 

用于中国\日本和韩国的标点符号

平假名

 12352-12447

日文字母的草体.

片假名

 12446-12543

非草体的日文字母,通常用于西方的外来词汇,像"keyboard"

汉语拼音字母 

12544-12591

中国的发音字母表

Hangul Compatibility Jamo 

12592-12687

与KSC 5601 代码兼容的韩国字符

Kanbun 

12686-12703

在日文中用于指示古典中文的阅读顺序的记号

括起来的CJK 字母和月份 

12800-13055 

用圆和括号括起来的Hangul 和片假名字符

CJK Compatibility 

13056-13311

只用于编码KSC 5601 和CNS 11643 的字符统一的CJK 象形文字 19966-40959 用于中文、日文和韩文的Han 象形文字

Hangul 音节

 44032-55203

一种韩国音节

Surrogates 

55296-57343

目前还不能使用,将来可用于扩展Unicode,使它包括超过百万的字符

个人使用 

57344-63743 

软件开发者可以在此包含自己的术语,与正在执行的字符不同

CJK 兼容性象形文字

 63744-64255

为了保持与现有的标准的一致性如KSC 5601,而使用的一些汉字象形文字

字母的表现方式 

64256-64335 

使用于Latin、美语和希伯来语中的连字和变种

阿拉伯表象形式 

64336-65023

各种阿拉伯字符的变种

组合半记号

 65056-65071

把跨越多个字符的多个可识别记号连成一个可识别的记号

CJK 兼容性形式 

65072-65103

用于台湾汉字象形文字

小型变种 

65104-65135

用于台湾的ASCII 标点符号的小的版本

附加的阿拉伯表象形式

 65136-65279 

各种阿拉伯字符变种

半宽和全宽形式 

65280-65519

能够在中文和日文的不同代码间转换的字符

特殊字符

 65520-65535

字节顺序记号和零宽度的非中断性空格,常用于Unicode 文件的开始

Unicode编码的字块,Unicode不同范围对应的不同语言的字符集相关推荐

  1. python unicode编码转换中文_python unicode转中文及转换默认编码

    一. 在爬虫抓取网页信息时常需要将类似"\u4eba\u751f\u82e6\u77ed\uff0cpy\u662f\u5cb8"转换为中文,实际上这是unicode的中文编码.可 ...

  2. ASCII码、Unicode编码对照表 —— ASCII控制字符 Unicode编码 字符编码的前世此生

    ASCII控制字符  Unicode编码 ASCII(American Standard Code for Information Interchange,美国信息互换标准代码,ASCⅡ)是基于拉丁字 ...

  3. unicode编码 php,PHP 的 UNICODE 编码和解码

    方法一: function unicode_encode($name) { $name = iconv('UTF-8', 'UCS-2', $name); $len = strlen($name); ...

  4. unicode编码 php,PHP解码unicode编码

    这篇文章主要介绍了PHP解码unicode编码 ,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下function unicode_decode($name) { //方法一 $name ...

  5. c语言unicode编码转ascii码,Unicode和ASCII的转换

    本帖最后由 shaoxie1986 于 2010-12-26 22:52 编辑 文章翻译:梁振 信息来源:http://www.codersource.net/win32_unicode_ascii. ...

  6. 汉字编码(【Unicode】 【UTF-8】 【Unicode与UTF-8之间的转换】 【汉字 Unicode 编码范围】【中文标点Unicode码】【GBK编码】【批量获取汉字UNICODE码】)

    参考博客: Unicode与UTF-8互转(C语言实现):http://blog.csdn.net/tge7618291/article/details/7599902 汉字 Unicode 编码范围 ...

  7. 汉字在线转化unicode编码

    http://www.bangnishouji.com/tools/chtounicode.htm 汉字转化unicode编码 欢迎使用汉字转化unicode编码工具,此程序将一段中文字转换成unic ...

  8. C#编码格式转换,Url,escape,unicode编码和解码

    数据操作时,设计的各种类型的编码和解码方法 1 转换escape编码,解码Escape /// <summary>/// 转换escape编码/// </summary>/// ...

  9. 字符编码之Ascll编码,ANSI编码,Unicode编码,UTF-8编码 ,BOM

    从大一上C语言就开始认识了Ascll编码,ascll码也算是我们最早所接触的编码 [1]Ascll码 Ascll码由三部分组成: 第一部分从00H到1FH共32个,一般用来通信或作为开工至之用,有的可 ...

  10. 浅谈unicode编码

    要想弄清楚char类型,就必须了解unicode编码机制. 在unicode出现之前,已经有了很多不同的标准,比如美国的ASCⅡ,西欧的ISO8859-1,中国的GB18030等.但是没有一个统一的编 ...

最新文章

  1. Xamarin Essentials教程剪贴板Clipboard
  2. Windows服务的安装,启动,停止和卸载
  3. c++输出小数点后几位_2.1 怎么在屏幕上输出各种类型的数据
  4. 如何在AWS上架设文件服务器
  5. dos c语言显示符号图案,在DOS命令行窗口中显示出用各种字符拼凑出来的各种图案的实现方法,如本人头像...
  6. Redis的N种妙用,不仅仅是缓存
  7. c++ 文件读写(转)
  8. VI.Multidocument Transactions
  9. Java添加事件监听的四种方法代码实例
  10. c form画直线_初一数学线段、射线、直线知识点精讲
  11. Python入门学习三
  12. html 边框上下都添加文字,抖音上下边框加文字的视频制作方法教程分享
  13. java queue GATK_gatk4使用总结
  14. word无法显示下划线
  15. YOLO-V3代码解析系列(六) —— 网络预测(evaluate.py)
  16. 如何利用领英快速开发客户?
  17. C# 四舍五入、进一法、舍位(取整,舍去小数,向负无穷舍入)函数
  18. C语言课设学生籍贯信息记录簿(大作业)
  19. JavaScript 学习手册二
  20. pitch、yaw、roll三个角的区别

热门文章

  1. 史上最全源码安装ROS-BUG解决集合:在树莓派4B上安装Raspbian Bluster + ROS-kinetic + 配置navigation
  2. python中temp的用法_请问Python里temp是什么意思?
  3. 随机过程之基本概念(一)
  4. 【计算机基础】五笔字根分解图
  5. 01. PM之项目启动Kickoff -- 可不只是一起吃个饭
  6. dynamic k-max pooling 动态k-max 池化
  7. BZOJ1140: [POI2009]KOD 编码
  8. OA多级审批流程表设计方案(干货满满)
  9. URL是什么意思?基础知识普及
  10. 【程序设计与实践】实验四:自动寄存柜(C语言)