藏文印刷体: 乌金体,又称有头体

摘要:

  • (1) 藏文属于拼音文字,基本字符由30个辅音字母和4个元音字符组成,其组成的现代藏文音节字数为592,包含572个藏文字丁。
  • (2)OCR 系统 通常以字丁为单位进行识别,根据部分论文的不完全统计1000份图片文档覆盖的字丁数大概为100个左右,
    因此,保守估计,全面覆盖字丁数,至少需要6000张文档标注。
  • (3)藏文标注时容易出现输入编码不统一的现象,需要在标注前提前统一。

1. 基本组成单元

1.1 基础字符 character

藏文属于拼音文字,由30个辅音字母,和4个元音字符组成。
这些字符按照一定的拼写规则构成了藏文的音节字。

1.2 增加字符

 为了满足语言翻译或者语言发展变化的实际需要,辅音和元音在原有基础上有所增加,增加后的辅音字符达到41个,元音字符达到15个
  • 增加的方式:
    (1) 反写
    (2)组合
    (3)添加辅助符号

1.3.其他字符

 除了上述字符外还包括:数字符号,标点符号,变音符号,篇章符,敬重符,吟咏示意符,吟诵会意符,占星符合装饰符。

2. 藏文的音节字 syllable

每个音节必须包含一个基字,基字可带前置、上置、下置、后置和再后置字母。

现代藏文音节字的总个数为592,藏文字丁总数为572 (一个音节字按照中间缝隙切开,则该字符分成了 4个字丁)
OCR系统,多以字丁为单位。

3. 书写形式:

书写形式分印刷体的有头字和手写体的无头字两种;
还有一种从无头字衍化而成了草书,它连笔较多,与有头字差别较大。行款自左向右横书,使用专门的标点符号
很多字母连写,中间会加入很多音节点,类似英文里的空格。

4. 藏文识别的难点:

  • (1) 藏文具有很多相似字符, 很多基础辅音字符差异很小,带来识别难度,需要增加标注数据。
  • (2) 藏文独特的叠字书写方式,使得藏文结构的解析比较复杂,可以以字丁为单位涵盖所有叠字结构,
    根据部分论文统计,1000份图片文档覆盖的字丁数大概为100多个,因此,保守估计,全面覆盖字丁数,至少需要6000张文档标注。
  • (3) 关于藏文识别的字符编码问题,可能会出现同形不同码现象(因此在标注时需要统一编码)
    同形不同码:由于藏文新增组合字符,不同的人在输入时习惯不同,可能有人以整体编码形式输入,有人以原始字符组合输入,导致字符编码不同。

5. 关于工程需要解决的基础问题:

  • (1) 输入法的选择?
  • (2) 如何获取藏文字丁?
    藏文编码字符集的扩充集在linux 上的实现, 中科院软件所 https://www.weibo.com/ttarticle/p/show?id=2309404314230789669491

参考文献

[1] 龙从军等, 中科院软件所,藏文编码字符集标准应用中的问题及对策
[2] 王维兰等, 藏文识别中相似字丁的区分研究
[3] 李永忠等,藏文印刷体字符识别技术研究
[4] Rowinski Z, Keutzer K. Namsel: An Optical Character Recognition System for Tibetan Text[J]. Himalayan Linguistics, 2016, 15(1).

相关网站:

[1] 藏语双语网 http://www.zanghansy.com/xzy/
[2] 藏语语言文字 http://mzw.qinghai.gov.cn/jjwhjy/wh/cc4b0e43_d93a_4b5c_89eb_ee5104cbf692.aspx
写自定义目录标题)

藏文印刷体: 乌金体,又称有头体相关推荐

  1. 印刷体藏文文字识别技术研究

    藏文字因其结构的特殊性,在应用传统文字识别方法进行识别时正确识别率较低,识别效果较差.在深入分析以印刷体藏文文字特征的基础上,提出了一系列可以在 干扰情况下提高识别率的方法,包括局部自适应二值化算法. ...

  2. 泰山OFFICE技术讲座:GB18030藏文蒙文彝文维文的斜体粗体简单测试

    看看有没有特殊处理. 藏文 Microsoft Himalaya,三号 彝文 Microsoft Yi Baiti,三号 蒙文 Mongolian Baiti,三号 维文 Times New Roma ...

  3. 【无标题】(论文阅读)基于蚁群算法的现代藏文字符轮廓提取技术研究-孙淑娟

    一.摘要 由于对字符提取骨架往往会失去受污损部位的重要信息,因此本文提出了一种基于蚁群算法的现代藏文字符轮廓提取 算法‚旨在用字符的轮廓线代替骨架线来表征字符.本算法用于印刷体藏文轮廓提取‚取得了良好 ...

  4. 简明藏文文法和实用藏文文法教程笔记

    简明藏文文法 胡书津 一.格助词 传统藏文文法称之为'属于格位范畴的虚词'.P11 它是名词在句中扮演什么样角色的一种标志.P11 通过一定的语法形式(格标志)表示名词性词语在语言结构中同其他词语的种 ...

  5. 助力“一带一路”信息化建设,银河麒麟操作系统(藏文版)V10 全新发布!

    在信息化建设的大潮中,西藏地区正在加速利用云计算.大数据.物联网.人工智能等高科技技术,构建信息化的"未来之城".在信息化建设进程中,操作系统是必不可少的,但是由于市面上的操作系统 ...

  6. Minigui 调试支持藏文过程记录

    1.先下载方正藏文 2.配置miniugi.cfg 增加字体方正藏体简体.TTF 3.main打开尝试(使用GB2312\GBK\ISO8859-6\UTF-8) 乱码 4.minigui编译配置支持 ...

  7. 红旗Linux藏文操作系统填补软件数字鸿沟红旗linux操作系统

    2008年8月20日消息,由中科红旗.中科院.及相关部门联合开发的Linux藏文操作系统通过信息产业部科技鉴定,达到同类产品技术的国际先进水平.目前已经正式向用户. 基于Linux的藏文操作系统研发项 ...

  8. 藏文在网页里显示成汉子_最终去处揭晓!红遍全网的藏族小伙丁真签约成国有公司员工...

    [文/观察者网 陈聪] 来自四川甘孜藏族自治州的20岁小伙丁真,是近期最为受到网友关注和热议的网络红人.在他走红后,社交网络上疯传丁真可能要签约网红公司.参加选秀节目的消息. 而在昨天(18日),丁真 ...

  9. 计算机藏文论文,计算机论文:藏文陈述句复述生成之计算机研究.docx

    计算机论文:藏文陈述句复述生成之计算机研究 第一章 绪论1.1 复述概述从 80 年代开始,藏文信息处理的研究已经经历了 40 年左右,过去几十年里不断放射着奇光异彩,吸引着众多藏文语言学家.藏文自然 ...

  10. java中的 请求体_在spring mvc test中访问请求体和请求头

    我创建了一个spring boot应用程序,这就是我的控制器的样子 . 我使用postman在请求体中发送json,在请求头中发送一个字符串,然后进一步散列json并将其与请求头获取的字符串进行比较 ...

最新文章

  1. for死循环、怪异字符串、两次return……Python冷知识(三)
  2. mysql 按照指定字段拼接_mysql 根据某个字段将多条记录的某个字段拼接成一个字段...
  3. C语言sscanf()函数(从字符串读取格式化输入,提取需要的信息)
  4. [转] ROS cmake_modules
  5. Android 闹钟
  6. MongoDB安装及结合mongobooster可视化工具使用
  7. mybatisplus查询今天的数据_springboot集成mybatisPlus
  8. 网络摄像头转usb接口_Arduino + USB Host Sheild 实现USB鼠标转PS/2接口
  9. ccie 与 java,上海ccie脚踏实地,java常量
  10. windows server 2008 - 隐藏磁盘分区 (2)
  11. Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用
  12. IDEA失去焦点,取消自动编译【已解决】
  13. 安卓游戏源码-android游戏源码开发-android游戏开发
  14. 教你,用java生成验证码(这这太简单了了吧!!!!!!!)
  15. CentOS系统下文件夹目录结构及其作用
  16. Visual Paradigm创建UML的流程和一点实用技巧
  17. pr_debug打印输出
  18. java多线程之线程安全----铁路售票系统的实现
  19. 人工智能时代,机遇与挑战并存
  20. [pyspark]itemcf协同过滤推荐算法------应用华为比赛数据实现(包含转化为稀疏向量,lsh模型,杰卡德距离)

热门文章

  1. UDS学习笔记(六)——程序刷写
  2. MYSQL 8.0 OCP
  3. 自然语言处理NLP星空智能对话机器人系列:理解语言的 Transformer 模型-子词分词器
  4. arcpy.ProjectRaster_management
  5. 软考——论文写作基本介绍
  6. 思源黑体官方下载地址
  7. Cadence Allegro学习之PCB封装库的导出
  8. Unity3D MineCraft 使用Unity3D制作MineCraft 我的世界 存盘和读取问题解决
  9. 财务数据图表分析,这些财务预算表模板免费用
  10. 网络工程师(软考)学习笔记6--传输介质