这几天项目组处理乌尔都语的短消息遇到点困难,我收集了一些关于乌尔都语及Unicode的资料,和大家分享下。
先开始介绍下乌尔都语:
乌尔都语原为印度大陆的本地语言,称为印度斯坦语。1947年印度独立和印巴分治,由于该地区语言繁杂,两国政府为了统一语言规范,巴基斯坦(*)和印度分别对乌尔都语进行“波斯化”和“梵文化”,形成了“乌尔都语”和“印地语”,并成为两国国语。故印度斯坦语也称为“印地-乌尔都语”。
巴基斯坦国语为乌尔都语,官方语言为英语。一般社会上层多使用英语,下层民众由于受教育程度偏低,多使用乌尔独语,而一些偏远部落和贫困地区,多使用部落语言或地方方言。使用比例约为 5:4:1。
巴基斯坦乌尔都语书写顺序为从右往左,语言表述结构为“主-宾-谓”,而汉语是“主-谓-宾”。
例如:我吃饭   表意为“我饭吃”  书写顺序“吃饭我”
Unicode的由来:
最开始计算机诞生后,1967年美国设计了一种涵盖英语世界文字的编码规范,后来经过改进,并逐步成为美国文字编码的统一标准,即ASCCII码。ASCII码使用一个字节(8位)中的后7位,最高位做奇偶校验,用于校验网络传输中数据的完整性。这样ASCII码可以表示128个字符,包括数字、大小写字母、控制字符、和美国人常用的字符。后来传到欧洲,ASCII码不能满足需求,如法语会在字母的上方加声调。这样法语将做奇偶校验的那一位用于表示字符,这样可以表示256个字符。但这种规则在俄语、波兰语等语言中就不适用了,这些语言就采用两个字节(16位)编码,可以表示65536个字符。
在20世纪80年代计算机进入中国,首先需将计算机语言本土化,我国计算机工作者经过努力,1981年制定了汉字的编码标准,即GB2312(**),涵盖了绝大多数的常用汉字。该标准采用两个字节编码,故最多只能表示65536个汉字,而汉字有十万多个。这就是GB2312的局限所在。
至此,大部分国家都形成了适用于本国文字的编码规范。这样造成了国际上计算机语言不能互通的局面,需要一种可以表示所有语言的编码规范。Unicode诞生了,1990年开始设计,1994年正式发布。Unicode可以表示1114112个字符。首先强调Unicode编码是一种规范,没有规定其实现的形式。然而Unicode有两个问题:1.只规定了字符集的二进制,没有规定编码方式,造成有多种实现Unicode的编码方式。间接导致在一段时间内Unicode的推广受阻。2.在问题1的基础上,Unicode浪费空间,例如:空格 Unicode二进制为0x0020,在ASCII码中为0x20,这样对美国人而言需要增加一个毫无用处的全0字节。美国人当然不乐意了。
同时互联网的普及,强烈需要一种统一的便于网络传输的Unicode的实现方式。1992年UTF-8问世,当然此时的UTF-8还有点小问题,在后面版本中进行了相应的改进。后面还有UTF-16、UTF-32等,但在互联网上基本不用。
UTF-8编码规则仅有两条:
1.用一个字节编码时,最高位取0,后7为用于编码,这样与ASCII码保持一致。
2.用n个字节编码时,第一个字节的最高位取n个1+1个0,后面的字节前两位一律取10。
(*)1971年,第三次印巴战争,使得东巴独立,即孟加拉国。
(**)GB2312与Unicode、UTF-8毫无联系。
 

若有问题,欢迎提出,谢谢! 

乌尔都语简介和Unicode由来相关推荐

  1. 禁毒学、油画、乌尔都语……字节跳动程序员的专业有多奇特丨技术同学大数据报告...

    在字节跳动,有超过两万名技术人才,他们分布在 11 个国家的 32 座城市里. 从 18 岁的实习生到 60 岁的专家,这群字节跳动技术人有着不同的经历和故事. 有人写 Go,有人写 Python,不 ...

  2. 禁毒学、油画、乌尔都语……字节跳动程序员的专业有多奇特丨技术同学大数据报告

    在字节跳动,有超过两万名技术人才,他们分布在 11 个国家的 32 座城市里. 从 18 岁的实习生到 60 岁的专家,这群字节跳动技术人有着不同的经历和故事. 有人写 Go,有人写 Python,不 ...

  3. 瓦尔都窗前的一瞥 ①

    面对着围着哥本哈根的.生满了绿草的城堡,是一幢高大的红房子.它的窗子很多,窗子上种着许多凤仙花和青蒿一类的植物.房子内部是一副穷相:里边住的也全是一些穷苦的老人.这就是"瓦尔都养老院&quo ...

  4. 字符编码简介 ANSI Unicode Unicode big endian UTF-8

    1. ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和 1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte) ...

  5. 每个 JavaScript 开发者都该懂的 Unicode

    2019独角兽企业重金招聘Python工程师标准>>> 英文原文标题:what-every-javascript-developer-should-know-about-unicod ...

  6. 每个程序员都必须知道的Unicode以及字节码最基础的知识

    原文出处:the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and ...

  7. L2+ 概念要火!英伟达和英特尔都释放了什么信号?| CES 2019 ...

    雷锋网新智驾按:从本周的 CES 来看,汽车行业又有了新常态,那就是原本信心满满要直冲 Level 5 的自动驾驶技术供应商都"挂了倒档",回到老路口又往 ADAS(Level 2 ...

  8. L2+ 概念要火!英伟达和英特尔都释放了什么信号?| CES 2019

    雷锋网新智驾按:从本周的 CES 来看,汽车行业又有了新常态,那就是原本信心满满要直冲 Level 5 的自动驾驶技术供应商都"挂了倒档",回到老路口又往 ADAS(Level 2 ...

  9. 英特尔(中国)有限公司简介

    英特尔公司是全球最大的半导体芯片制造商,成立于1968年,具有36年产品创新和市场领导的历史.目前在世界500强中排名前列.作为全球信息产业的领导公司之一,英特尔公司致力于在客户机.服务器.网络通讯. ...

  10. 隐马尔可夫简介(转)

    同前面一样,因为编辑器不支持latex方式的数学公式输入,所以我就试图用文字的方式来简要描述一下隐Markov模型(Hidden Markov Model,HMM).所有这类模型都有一个前提假设,就是 ...

最新文章

  1. 【tensorflow】OP_REQUIRES failed at variable_ops.cc:104 Already exists: Resource
  2. 6-4 链表拼接 (20分)_青岛喷绘制作公司不愿透露的喷绘布拼接与安装技巧,建议收藏...
  3. Web系统开发构架再思考-前后端的完全分离
  4. 在WildFly中将Apache Camel和Spring添加为jboss模块
  5. (重磅)最快的Hadoop完全分布式运行
  6. java贪心算法几个经典例子_经典算法思想5——贪心(greedy algorithm)
  7. react-nativeAndroid打包报错:Daemon: AAPT2 aapt2-3.2.1-4818971-osx Daemon #0
  8. LAMP-各PHP加速器性能剖析
  9. android的直播送礼物,仿斗鱼直播送礼物效果
  10. 室内定位常用方法总结
  11. 联通计算机用户名和密码,终极:联通路由器的默认登录密码是什么?
  12. python自然语言处理第三章:处理原始文本
  13. Tomcat之Directory Listing
  14. 腾讯云-产品开通和密钥查看
  15. 无法登录苹果开发者_苹果企业开发者账号怎么申请?失败的原因是什么
  16. java计算机毕业设计微留学学生管理系统源码+数据库+系统+lw文档+mybatis+运行部署
  17. [golang gin框架] 27.Gin 商城项目-购物车
  18. 计算机网络举例说明,什么是计算机网络,举例说明计算机网络有哪些应用?
  19. ping:www.baidu.com 未知的名称或服务解决办法​​​​​​​
  20. 编译小米2s CyanogenMod 版本遇到的几个问题 (02.26更新)

热门文章

  1. 印度电影,又一次让我们不得不服
  2. scratch实现猴子接苹果
  3. erpc(EmbeddedRPC)入门笔记
  4. 交换基础之生成树协议
  5. 计算机无法启动鼠标键盘没反应,电脑开机后鼠标键盘没反应怎么办
  6. Android FFmpeg集成
  7. 而立之年——三线城市程序员的年终告白
  8. 今日发现一个挺好的软件,控制音量 App音量控制(App Volume Control)v2.17 安卓版
  9. matlab 逐日 变逐月,一个逐日系统程序 用SWITCH咋也跳不出循环 求大神指教
  10. 自学java到可以找工作要多久_自学编程需要多久才能找到工作?