本发明涉及信息处理技术领域的一种转换方法,尤其涉及一种蒙古文国际标准编码到形码转换方法,还涉及一种蒙古文国际标准编码到形码转换装置,还涉及一种计算机终端。

背景技术:

蒙古文信息处理的研究工作最先是在文字排版方面展开的,由于文字排版系统对文字而言比较关注的是文字的“形”,一个单词只要能够出现正确的形状即可。因此基于形码的蒙古文编码方案也应运而生。不同的研究单位在制定各自的形码方案时有的采用一个字符只定义一个编码,但可以表示多个不同发音的字母;有的采用一个字符定义多个编码,相同字形编码不同,可表示不同发音的字母;有的采用将多个字母中都会出现的部分结构,重新定义为一个“字符”或从文字书写的习惯和美观角度出发,将字母中的部分笔画进行了重组,并为每一个“字符”定义一个编码。

1993年国际标准化组织和unicode技术委员会在iso/iec10646国际标准字符集中发布了蒙古文国际标准编码。在该标准中,把从u+1800开始的一个“平面”作为蒙古文字符集编码码位。蒙古文字符实际占有码位区间是u+1800一u+18af。蒙古文国际标准字符集包括传统蒙古文、托忒文、锡伯文、满文以及蒙、托、满三种文字用于转写藏文和梵文的阿礼嘎礼字符、标点符号、数字和控制符。传统蒙古文、托忒文、锡伯文、满文的大部分字母根据它们在词里的位置(词首、词中、词尾)等有不同的变体形式,有时一个字母能有十种以上的变体形式。

在目前的蒙古文印刷体识别和手写识别任务中有时需要字形编码作为中间码,而不直接使用unicode编码。因为蒙古文unicode编码不能直接表示字形信息。目前蒙古文资源都是用unicode编码表示和存储。因此需要一种蒙古文unicode编码到字形码的转换过程,以解决现有的蒙古文unicode编码不能够直接使用在蒙古文印刷体识别和手写识别任务中,使用不便的问题。

技术实现要素:

为解决现有的蒙古文unicode编码不能够直接使用在蒙古文印刷体识别和手写识别任务中,使用不便的技术问题,本发明提供一种蒙古文国际标准编码到形码转换方法、装置及计算机终端。

本发明采用以下技术方案实现:一种蒙古文国际标准编码到形码转换方法,其包括以下步骤:

(1)枚举出生成每个蒙古文字母的所有可能unicode编码序列,并记录各格式“unicode串=字母id”且记作ul;

(2)将ul按照位置属性分为四份,并分别记作ul_a、ul_s、ul_m、ul_e,且每份中按照unicode串长度的倒序进行排序;其中,定义ul_x(i).uni为ul第i行“=”前的unicode串,ul_x(i).scode为ul第i行“=”后的字母id,x为字母a、s、m、e中的一种;

(3)将待转换蒙古文unicode串记作mgl,初始化转换结果序列glist=[];

(4)遍历ul_a并判断mgl是否存在于ul_a中,如果存在且行号为i时,则glist=[ul_a(i).scode]并结束遍历ul_a,否则继续遍历ul_a;

(5)遍历ul_s,判断ul_s(i).uni是否与mgl开头匹配,如果有匹配行时则glist=[ul_a(i).scode]且mgl=mgl-ul_a(i).uni,并继续遍历ul_s,否则中止遍历ul_s;

(6)遍历ul_e,判断mgl是否存在于ul_e中,如果存在且行号为i时,则glist=glist+[ul_a(i).scode]并结束遍历ul_e,否则继续遍历ul_e;

(7)遍历ul_m,判断ul_m(i).uni是否与mgl开头匹配,如果有匹配行时则glist=glist+[ul_a(i).scode]且mgl=mgl-ul_a(i).uni,并当mgl==空则结束遍历ul_m,否则继续遍历ul_m,如果没有匹配行则中止遍历ul_m。

本发明通过先枚举出每个蒙古文字母的所有可能的unicode编码序列,再将按照位置属性分为四份,并且每份中按照unicode串长度的倒序进行排序,然后对各份进行遍历并分别判断,并且在遍历过程中利用转换结果序列进行存放,从而实现将蒙古文国际标准编码转换到形码,即能够实现多对多的关系转化,也可以对没有固定转换关系的转换,还可以对不是定长的编码进行转换,从而可以生成作为中间码的字形编码,便于蒙古文印刷体识别和手写识别,方便蒙古文unicode编码表示和存储,从而解决现有的蒙古文unicode编码不能够直接使用在蒙古文印刷体识别和手写识别任务中,使用不便的技术问题。

作为上述方案的进一步改进,所述位置属性包括“独”、“首”、“中”、“末”;其中,位置属性“独”用于表示没有连接符的独立词,位置属性“首”用于表示存在所述连接符且所述连接符必须出现在词开头的串,位置属性“中”用于表示存在所述连接符且所述连接符必须出现在词中间的串,位置属性“末”用于表示存在所述连接符且所述连接符必须出现在词结尾处的串。

作为上述方案的进一步改进,所述蒙古文字母的数量为382个;其中,所述蒙古文字母按照先行后列的顺序依此按三位数字给每个字母编码。

作为上述方案的进一步改进,蒙古文字母的所有可能unicode编码序列为:

1833180b1823180b=001

18331826180c=001

1833180b1823200d=001

1833180b1824200d=001

1833180b1825180b200d=001

1833180b1826180b200d=001

200d18321823180b=001

200d18321824180b=001

200d18331823180b=001

200d18331824180b=001

200d18321823200d=001

200d18321824200d=001

200d18321825200d=001

200d18321826200d=001

200d18331823200d=001

200d18331824200d=001

200d18331825200d=001

200d18331826200d=001

202f18331824200d=001

202f18331826200d=001

其中,“200d”表示连接符。

作为上述方案的进一步改进,在步骤(5)中,中止遍历ul_s后发出错误代码1;在步骤(7)中,中止遍历ul_m后发出错误代码2。

本发明还提供一种蒙古文国际标准编码到形码转换方法,其包括以下步骤:

(1)定义蒙古文字母集合,所述蒙古文字母集合包括多个蒙古文字母;其中,每个蒙古文字母按照先行后列的顺序依此按三位数字给每个蒙古文字母编码,获得每个蒙古文字母的字母id;

(2)枚举出生成每个蒙古文字母的所有可能unicode编码序列,且定义每个蒙古文字母的格式“unicode串=字母id”且为无序列表;

(3)按照位置属性“独”、“首”、“中”、“末”将所述无序列表分为独性部分、首性部分、中性部分以及末性部分,且每份中按照unicode串长度的倒序进行排序;其中,位置属性“独”用于表示没有连接符的独立词,位置属性“首”用于表示存在所述连接符且所述连接符必须出现在词开头的串,位置属性“中”用于表示存在所述连接符且所述连接符必须出现在词中间的串,位置属性“末”用于表示存在所述连接符且所述连接符必须出现在词结尾处的串;

(4)获取待转换蒙古文unicode串,初始化转换结果序列;

(5)遍历所述独性部分,并判断所述待转换蒙古文unicode串是否存在于所述独性部分中,如果存在则将相应行“=”后的字母id存于所述转换结果序列中,否则继续遍历所述独性部分;

(6)遍历所述首性部分,并判断所述首性部分的各行的unicode串是否与所述待转换蒙古文unicode串开头匹配,如果有匹配行时则相应行“=”后的字母id存于所述转换结果序列中并从所述待转换蒙古文unicode串中删除相应的匹配部分,并继续遍历所述首性部分,如果没有匹配行则中止遍历所述首性部分;

(7)遍历所述中性部分,并判断所述待转换蒙古文unicode串是否存在于所述中性部分中,如果存在则将相应行“=”后的字母id累加在所述转换结果序列中,否则继续遍历所述中性部分;

(8)遍历所述末性部分,并判断所述末性部分的unicode串是否与所述待转换蒙古文unicode串开头匹配,如果有匹配行时则相应行“=”后的字母id累加在所述转换结果序列中并从所述待转换蒙古文unicode串中删除相应的匹配部分,并继续遍历所述末性部分,如果没有匹配行则中止遍历所述末性部分。

作为上述方案的进一步改进,在步骤(1)中,所述蒙古文字母的数量为382个;

在步骤(6)中,中止遍历所述首性部分后发出错误代码1;

在步骤(8)中,中止遍历所述末性部分后发出错误代码2。

本发明还提供一种蒙古文国际标准编码到形码转换装置,其应用上述任意所述的蒙古文国际标准编码到形码转换方法,其包括:

枚举模块,其用于枚举出生成每个蒙古文字母的所有可能unicode编码序列,并记录各格式“unicode串=字母id”且记作ul;

划分模块,其用于将ul按照位置属性分为四份,并分别记作ul_a、ul_s、ul_m、ul_e,且每份中按照unicode串长度的倒序进行排序;其中,定义ul_x(i).uni为ul第i行“=”前的unicode串,ul_x(i).scode为ul第i行“=”后的字母id,x为字母a、s、m、e中的一种;

初始化模块,其用于将待转换蒙古文unicode串记作mgl,初始化转换结果序列glist=[];

遍历模块一,其用于遍历ul_a并判断mgl是否存在于ul_a中,如果存在且行号为i时,则glist=[ul_a(i).scode]并结束遍历ul_a,否则继续遍历ul_a;

遍历模块二,其用于遍历ul_s,判断ul_s(i).uni是否与mgl开头匹配,如果有匹配行时则glist=[ul_a(i).scode]且mgl=mgl-ul_a(i).uni,并继续遍历ul_s,否则中止遍历ul_s;

遍历模块三,其用于遍历ul_e,判断mgl是否存在于ul_e中,如果存在且行号为i时,则glist=glist+[ul_a(i).scode]并结束遍历ul_e,否则继续遍历ul_e;

遍历模块四,其用于遍历ul_m,判断ul_m(i).uni是否与mgl开头匹配,如果有匹配行时则glist=glist+[ul_a(i).scode]且mgl=mgl-ul_a(i).uni,并当mgl==空则结束遍历ul_m,否则继续遍历ul_m,如果没有匹配行则中止遍历ul_m。

本发明还提供一种蒙古文国际标准编码到形码转换装置,其应用上述任意所述的蒙古文国际标准编码到形码转换方法,其包括:

定义模块,其用于定义蒙古文字母集合,所述蒙古文字母集合包括多个蒙古文字母;其中,每个蒙古文字母按照先行后列的顺序依此按三位数字给每个蒙古文字母编码,获得每个蒙古文字母的字母id;

枚举模块,其用于枚举出生成每个蒙古文字母的所有可能unicode编码序列,且定义每个蒙古文字母的格式“unicode串=字母id”且为无序列表;

划分模块,其用于按照位置属性“独”、“首”、“中”、“末”将所述无序列表分为独性部分、首性部分、中性部分以及末性部分,且每份中按照unicode串长度的倒序进行排序;其中,位置属性“独”用于表示没有连接符的独立词,位置属性“首”用于表示存在所述连接符且所述连接符必须出现在词开头的串,位置属性“中”用于表示存在所述连接符且所述连接符必须出现在词中间的串,位置属性“末”用于表示存在所述连接符且所述连接符必须出现在词结尾处的串;

初始化模块,其用于获取待转换蒙古文unicode串,初始化转换结果序列;

遍历模块一,其用于遍历所述独性部分,并判断所述待转换蒙古文unicode串是否存在于所述独性部分中,如果存在则将相应行“=”后的字母id存于所述转换结果序列中,否则继续遍历所述独性部分;

遍历模块二,其用于遍历所述首性部分,并判断所述首性部分的各行的unicode串是否与所述待转换蒙古文unicode串开头匹配,如果有匹配行时则相应行“=”后的字母id存于所述转换结果序列中并从所述待转换蒙古文unicode串中删除相应的匹配部分,并继续遍历所述首性部分,如果没有匹配行则中止遍历所述首性部分;

遍历模块三,其用于遍历所述中性部分,并判断所述待转换蒙古文unicode串是否存在于所述中性部分中,如果存在则将相应行“=”后的字母id累加在所述转换结果序列中,否则继续遍历所述中性部分;

遍历模块四,其用于遍历所述末性部分,并判断所述末性部分的unicode串是否与所述待转换蒙古文unicode串开头匹配,如果有匹配行时则相应行“=”后的字母id累加在所述转换结果序列中并从所述待转换蒙古文unicode串中删除相应的匹配部分,并继续遍历所述末性部分,如果没有匹配行则中止遍历所述末性部分。

本发明还提供一种计算机终端,其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行程序时实现上述任意所述的蒙古文国际标准编码到形码转换方法的步骤。

相较于现有的蒙古文unicode编码,本发明的蒙古文国际标准编码到形码转换方法、装置及计算机终端具有以下有益效果:

1、该蒙古文国际标准编码到形码转换方法,其通过先枚举出每个蒙古文字母的所有可能的unicode编码序列,再将按照位置属性分为四份,并且每份中按照unicode串长度的倒序进行排序,然后对各份进行遍历并分别判断,并且在遍历过程中利用转换结果序列进行存放,从而实现将蒙古文国际标准编码转换到形码,即能够实现多对多的关系转化,也可以对没有固定转换关系的转换,还可以对不是定长的编码进行转换,从而可以生成作为中间码的字形编码,便于蒙古文印刷体识别和手写识别,方便蒙古文unicode编码表示和存储。

2、该蒙古文国际标准编码到形码转换装置,其有益效果与上述蒙古文国际标准编码到形码转换方法的有益效果相同,在此不再做赘述。

3、该计算机终端,其有益效果与上述蒙古文国际标准编码到形码转换方法的有益效果相同,在此不再做赘述。

附图说明

图1为本发明实施例1中蒙古文unicode编码的示意图。

图2为本发明实施例1中的382个蒙古文字母的统计图。

图3为本发明实施例1的蒙古文国际标准编码到形码转换方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

实施例1

本实施例提供了一种蒙古文国际标准编码到形码转换方法,该转换方法用于将蒙古文国际标准编码转换到形码。请参阅图1,本案发明人通过研究发现,根据iso/iec10646的有关规则,只对这些变体形式中的一个进行编码,称为“名义字符”。“名义字符”选取的一般原则是:对于元音,采用它们的独立形式:对辅音,采用出现在元音“a”前面的词首形式。所有其它形式称为“变形显现形式”。如果不同文种的一些字母在词首时有相同的形式。而在词中或词尾有不同的形式时,应采用不同字形,以区分文种。如发音为ba的字母,传统蒙古文用(u+182a)表示,而托忒文用u+184b)表示。

传统蒙古文中有四个特殊的元音o、u、oe和ue,前两个字符的变形显现字符形状一样,后两个字符的变形显现字符形状也一样,但它们是形同音不同的四个字母。在字符集中取。的独立形式u的词首形式oe的独立形式和e的词首形式

在每个文种中,名义字符所对应的变形显现字符的选择,一般情况下都可以根据其在单词中的位置或词性确定。但有少数变形无法确定,需要通过字符集中的控制符才能确定。蒙古文国际标准编码字符集用到的控制符包括:u+180b、u+180c、u+180d、u+180e、u+202f、u+200c、u+200d。其中后3个编码来自通用符号区。在目前的蒙古文印刷体识别和手写识别任务中有时需要字形编码作为中间码,而不直接使用unicode编码。因为蒙古文unicode编码不能直接表示字形信息,而目前蒙古文资源都是用unicode编码表示和存储。从字形角度看,蒙古文不像英文那样有固定独立的26个字母,而可以从不同角度定义不同的字母集合。

基于此,本实施例定义蒙古文字母的数量为382个,即形成个包含382个字母的蒙古文字母集合,并且这382个蒙古文字母如图2中所示。

其中,蒙古文字母按照先行后列的顺序依此按三位数字给每个字母编码,从左上角开始,如

转换过程就是将一个unicode编码表示的蒙古文,转成用字母编号便是的蒙古文。例如:蒙古文“(0x18200x18370x18200x1833)”转换成“244196369”。这种转换关系特点有:

(1)多对多关系。例如,上例子中“0x18370x1820”这俩个转换成”“196”;

(2)没有固定转换关系,例如“0x1820”上例中转换成了“244”,但其它文字中“0x1820”可能会被转成“307310329357”等;

(3)不是定长转换,上例中“0x1820→244”“0x18370x1820→196”“0x1833→369”。

请参阅图3,本案发明人考虑到以上,提出一种转换方法,并且本实施例的蒙古文国际标准编码到形码转换方法就包括以下这些步骤。

(1)枚举出生成每个蒙古文字母的所有可能unicode编码序列,并记录各格式“unicode串=字母id”且记作ul。其中,蒙古文字母的所有可能unicode编码序列为:

1833180b1823180b=001

18331826180c=001

1833180b1823200d=001

1833180b1824200d=001

1833180b1825180b200d=001

1833180b1826180b200d=001

200d18321823180b=001

200d18321824180b=001

200d18331823180b=001

200d18331824180b=001

200d18321823200d=001

200d18321824200d=001

200d18321825200d=001

200d18321826200d=001

200d18331823200d=001

200d18331824200d=001

200d18331825200d=001

200d18331826200d=001

202f18331824200d=001

202f18331826200d=001

其中,“200d”表示连接符。无“200d”时表示这个串是一个独立词,用位置属性“独”表示;“*200d”表示这个串必须出现在词开头,用位置属性“首”表示;“200d*200d”表示这个串必须出现在词中间,用位置属性“中”表示;“200d*”表示这个串必须出现在词结尾处,用位置属性“末”表示。

(2)将ul按照位置属性分为四份,并分别记作ul_a、ul_s、ul_m、ul_e,且每份中按照unicode串长度的倒序进行排序;其中,定义ul_x(i).uni为ul第i行“=”前的unicode串,ul_x(i).scode为ul第i行“=”后的字母id,x为字母a、s、m、e中的一种。在本实施例中,位置属性包括“独”、“首”、“中”、“末”。其中,位置属性“独”用于表示没有连接符的独立词,位置属性“首”用于表示存在连接符且连接符必须出现在词开头的串,位置属性“中”用于表示存在连接符且连接符必须出现在词中间的串,位置属性“末”用于表示存在连接符且连接符必须出现在词结尾处的串。

(3)将待转换蒙古文unicode串记作mgl,初始化转换结果序列glist=[]。glist=[]表示空,而mgl以“4位十六进制4位十六进制4位十六进制”格式保存。

(4)遍历ul_a并判断mgl是否存在于ul_a中,如果存在且行号为i时,则glist=[ul_a(i).scode]并结束遍历ul_a,否则继续遍历ul_a。

(5)遍历ul_s,判断ul_s(i).uni是否与mgl开头匹配,如果有匹配行时则glist=[ul_a(i).scode]且mgl=mgl-ul_a(i).uni,并继续遍历ul_s,否则中止遍历ul_s。在本步骤中,中止遍历ul_s后发出错误代码1。

(6)遍历ul_e,判断mgl是否存在于ul_e中,如果存在且行号为i时,则glist=glist+[ul_a(i).scode]并结束遍历ul_e,否则继续遍历ul_e。

(7)遍历ul_m,判断ul_m(i).uni是否与mgl开头匹配,如果有匹配行时则glist=glist+[ul_a(i).scode]且mgl=mgl-ul_a(i).uni,并当mgl==空则结束遍历ul_m,否则继续遍历ul_m,如果没有匹配行则中止遍历ul_m。在本步骤中,中止遍历ul_m后发出错误代码2。

综上所述,相较于现有的蒙古文unicode编码,本实施例的蒙古文国际标准编码到形码转换方法具有以下优点:

该蒙古文国际标准编码到形码转换方法,其通过先枚举出每个蒙古文字母的所有可能的unicode编码序列,再将按照位置属性分为四份,并且每份中按照unicode串长度的倒序进行排序,然后对各份进行遍历并分别判断,并且在遍历过程中利用转换结果序列进行存放,从而实现将蒙古文国际标准编码转换到形码,即能够实现多对多的关系转化,也可以对没有固定转换关系的转换,还可以对不是定长的编码进行转换,从而可以生成作为中间码的字形编码,便于蒙古文印刷体识别和手写识别,方便蒙古文unicode编码表示和存储。

实施例2

本实施例提供了一种蒙古文国际标准编码到形码转换方法,该转换方法与实施例1的相似,在本实施例中,该方法具体包括以下这些步骤。

(1)定义蒙古文字母集合,蒙古文字母集合包括多个蒙古文字母。其中,每个蒙古文字母按照先行后列的顺序依此按三位数字给每个蒙古文字母编码,获得每个蒙古文字母的字母id。其中,蒙古文字母的数量为382个,且382个蒙古文字母如实施例1中的图2中所示。

(2)枚举出生成每个蒙古文字母的所有可能unicode编码序列,且定义每个蒙古文字母的格式“unicode串=字母id”且为无序列表。

(3)按照位置属性“独”、“首”、“中”、“末”将无序列表分为独性部分、首性部分、中性部分以及末性部分,且每份中按照unicode串长度的倒序进行排序。其中,位置属性“独”用于表示没有连接符的独立词,位置属性“首”用于表示存在连接符且连接符必须出现在词开头的串,位置属性“中”用于表示存在连接符且连接符必须出现在词中间的串,位置属性“末”用于表示存在连接符且连接符必须出现在词结尾处的串。

(4)获取待转换蒙古文unicode串,初始化转换结果序列。

(5)遍历独性部分,并判断待转换蒙古文unicode串是否存在于独性部分中,如果存在则将相应行“=”后的字母id存于转换结果序列中,否则继续遍历独性部分。

(6)遍历首性部分,并判断首性部分的各行的unicode串是否与待转换蒙古文unicode串开头匹配,如果有匹配行时则相应行“=”后的字母id存于转换结果序列中并从待转换蒙古文unicode串中删除相应的匹配部分,并继续遍历首性部分,如果没有匹配行则中止遍历首性部分,中止遍历首性部分后发出错误代码1。

(7)遍历中性部分,并判断待转换蒙古文unicode串是否存在于中性部分中,如果存在则将相应行“=”后的字母id累加在转换结果序列中,否则继续遍历中性部分。

(8)遍历末性部分,并判断末性部分的unicode串是否与待转换蒙古文unicode串开头匹配,如果有匹配行时则相应行“=”后的字母id累加在转换结果序列中并从待转换蒙古文unicode串中删除相应的匹配部分,并继续遍历末性部分,如果没有匹配行则中止遍历末性部分,中止遍历末性部分后发出错误代码2。

实施例3

本实施例提供了一种蒙古文国际标准编码到形码转换装置,其应用实施例1中的蒙古文国际标准编码到形码转换方法,并且包括枚举模块、划分模块、初始化模块、遍历模块一、遍历模块二、遍历模块三以及遍历模块四。

枚举模块用于枚举出生成每个蒙古文字母的所有可能unicode编码序列,并记录各格式“unicode串=字母id”且记作ul。划分模块用于将ul按照位置属性分为四份,并分别记作ul_a、ul_s、ul_m、ul_e,且每份中按照unicode串长度的倒序进行排序。其中,定义ul_x(i).uni为ul第i行“=”前的unicode串,ul_x(i).scode为ul第i行“=”后的字母id,x为字母a、s、m、e中的一种。初始化模块用于将待转换蒙古文unicode串记作mgl,初始化转换结果序列glist=[]。

遍历模块一用于遍历ul_a并判断mgl是否存在于ul_a中,如果存在且行号为i时,则glist=[ul_a(i).scode]并结束遍历ul_a,否则继续遍历ul_a。遍历模块二用于遍历ul_s,判断ul_s(i).uni是否与mgl开头匹配,如果有匹配行时则glist=[ul_a(i).scode]且mgl=mgl-ul_a(i).uni,并继续遍历ul_s,否则中止遍历ul_s。遍历模块三用于遍历ul_e,判断mgl是否存在于ul_e中,如果存在且行号为i时,则glist=glist+[ul_a(i).scode]并结束遍历ul_e,否则继续遍历ul_e。遍历模块四用于遍历ul_m,判断ul_m(i).uni是否与mgl开头匹配,如果有匹配行时则glist=glist+[ul_a(i).scode]且mgl=mgl-ul_a(i).uni,并当mgl==空则结束遍历ul_m,否则继续遍历ul_m,如果没有匹配行则中止遍历ul_m。这四个遍历模块分别用于遍历划分模块所划分的四部分,实现对蒙古文国际标准编码到形码的转换。

实施例4

本实施例提供了一种蒙古文国际标准编码到形码转换装置,该装置应用实施例2中的蒙古文国际标准编码到形码转换方法,并且包括定义模块、枚举模块、划分模块、初始化模块、遍历模块一、遍历模块二、遍历模块三以及遍历模块四。

定义模块用于定义蒙古文字母集合,蒙古文字母集合包括多个蒙古文字母。其中,每个蒙古文字母按照先行后列的顺序依此按三位数字给每个蒙古文字母编码,获得每个蒙古文字母的字母id。枚举模块用于枚举出生成每个蒙古文字母的所有可能unicode编码序列,且定义每个蒙古文字母的格式“unicode串=字母id”且为无序列表。划分模块用于按照位置属性“独”、“首”、“中”、“末”将无序列表分为独性部分、首性部分、中性部分以及末性部分,且每份中按照unicode串长度的倒序进行排序。其中,位置属性“独”用于表示没有连接符的独立词,位置属性“首”用于表示存在连接符且连接符必须出现在词开头的串,位置属性“中”用于表示存在连接符且连接符必须出现在词中间的串,位置属性“末”用于表示存在连接符且连接符必须出现在词结尾处的串。初始化模块用于获取待转换蒙古文unicode串,初始化转换结果序列。

遍历模块一用于遍历独性部分,并判断待转换蒙古文unicode串是否存在于独性部分中,如果存在则将相应行“=”后的字母id存于转换结果序列中,否则继续遍历独性部分。遍历模块二用于遍历首性部分,并判断首性部分的各行的unicode串是否与待转换蒙古文unicode串开头匹配,如果有匹配行时则相应行“=”后的字母id存于转换结果序列中并从待转换蒙古文unicode串中删除相应的匹配部分,并继续遍历首性部分,如果没有匹配行则中止遍历首性部分。遍历模块三用于遍历中性部分,并判断待转换蒙古文unicode串是否存在于中性部分中,如果存在则将相应行“=”后的字母id累加在转换结果序列中,否则继续遍历中性部分。遍历模块四用于遍历末性部分,并判断末性部分的unicode串是否与待转换蒙古文unicode串开头匹配,如果有匹配行时则相应行“=”后的字母id累加在转换结果序列中并从待转换蒙古文unicode串中删除相应的匹配部分,并继续遍历末性部分,如果没有匹配行则中止遍历末性部分。这四个遍历模块分别用于遍历划分模块所划分的四部分,实现对蒙古文国际标准编码到形码的转换。

实施例5

本实施例提供一种计算机终端,其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序。处理器执行程序时实现实施例1或2的蒙古文国际标准编码到形码转换方法的步骤。

实施例1或2的方法在应用时,可以软件的形式进行应用,如设计成独立运行的程序,安装在计算机终端上,计算机终端可以是电脑、智能手机、控制系统以及其他物联网设备等。实施例1的方法也可以设计成嵌入式运行的程序,安装在计算机终端上,如安装在单片机上。

实施例6

本实施例提供一种计算机可读存储介质,其上存储有计算机程序。程序被处理器执行时,实现实施例1或2的蒙古文国际标准编码到形码转换方法的步骤。

实施例1或2的方法在应用时,可以软件的形式进行应用,如设计成计算机可读存储介质可独立运行的程序,计算机可读存储介质可以是u盘,设计成u盾,通过u盘设计成通过外在触发启动整个方法的程序。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

国际标准码 计算机,蒙古文国际标准编码到形码转换方法、装置及计算机终端与流程...相关推荐

  1. python转码方法_004-python基础-字符编码与转码

    一.三种编码方式 ASCII:是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,其最多只能用 8 位来表示(一个字节),即:2**8 = 256-1,所以,ASCII码最多只能表示 ...

  2. 我的形码输入法[C语言] 之一:输入法的字词编码

    以下的介绍内容涉及到专利权的,不过不是偶的,是客户的:) 用在windows平台上,是形码输入法,使用四位十进制数字代替形码:  0 口囗日目曰罒  1 丨丶ㄟ宀  2 一  3 丿  4 十乂艹丰 ...

  3. 获取房屋编码的校验码的java和C#版本

    获取房屋编码的校验码java版 //获取房屋编码的校验码private String getC(String str_in){String rbc="";//26位加权因子int ...

  4. 输入码(外码),国标码,区位码,机内码,字型码的概念与关系

    输入码: 又称汉字外码,无论是区位码或国标码都不利于输入汉字,为方便汉字的输入而制定的汉字编码,称为汉字输入码.汉字输入码属于外码.不同的输入方法,形成了不同的汉字外码.常见的输入法有以下几类: 按汉 ...

  5. 证明最小码距与纠检错图像_最小码距和检错纠错能力关系

    最小码距和检错纠错能力关系 一.码距? 码距就是两个码字 C1 与 C2 之间不同的比特数.如: 1100 与 1010 的码距 为 2;1111 与 0000 的码距为 4 . 一个编码系统的码距就 ...

  6. 中国二维码--汉信码(中国主导的首个二维码码制国际标准「汉信码」ISO/IEC 20830:2021《信息技术 自动识别与数据采集技术 汉信码条码符号规范》)

    国际标准化组织(ISO)和国际电工协会(IEC)正式发布汉信码 ISO/IEC 国际标准 --ISO/IEC 20830:2021<信息技术 自动识别与数据采集技术 汉信码条码符号规范>. ...

  7. php中文ascii码范围,标准ascii码字符集共有几个编码?

    标准ascii码字符集共有128个编码.标准ASCII码是用7个二进制位表示1个字符,由于2的7次方为128,所以标准ASCII码字符集共有编码128个:而每一个编码代表一个基本符号,也就是说,使用A ...

  8. 计算机的数值与编码教程,计算机数据表示方法及工业标准IEEE754讲解教程

    本文主要对计算机系统中数据的表示形式及工业IEEE754标准进行讲解,如有不当,敬请提出修改,敬请阅读! 目录 Hello!你好呀,我是灰小猿!一个超会写Bug的沙雕程序猿! 今天在这里和大家记录一下 ...

  9. “中文四六级”考试来了!《国际中文教育中文水平等级标准》发布

    新京报快讯 据教育部网站3月31日消息,经国家语委语言文字规范标准审定委员会审定,<国际中文教育中文水平等级标准>(GF0025-2021)(以下简称<标准>)近日由教育部.国 ...

最新文章

  1. 360数据处理平台的架构演进及优化实践
  2. 数据科学研究院第四届“院长接待日”成功举办
  3. Spark Scala语言学习系列之完成HelloWorld程序(三种方式)
  4. 汇新杯┃拼多多黄峥:普通的创业者,不普通的朋友圈_创成汇
  5. Linux下串口ttyS2,ttyS3不能用的问题解决办法
  6. 使用百度云智能SDK和树莓派搭建简易的人脸识别系统 Python语言版
  7. 5.1 vim介绍 5.2 vim颜色显示和移动光标 5.3 vim一般模式下移动光标 5.4 vim一般模式下复制、剪切和粘贴...
  8. 约瑟夫环问题2(顺序表+链表求解)
  9. NHibernate Linq中Null值排序的解决方法
  10. android ble 发送指令,Android – 如何通过蓝牙低能耗(BLE)链接发送数据?
  11. Linux检查当前运行级别
  12. WinPE启动U盘工具箱 (通用PE工具箱ISO映像文件)
  13. 数学分析-基本积分表
  14. php root进程保存文件夹,thinkphp5日志文件夹及文件权限问题的解决
  15. ef1a启动子_组织特异性启动子的筛选方法
  16. c语言外心,下面说法正确的是( )A.三点确定一个圆B.外心在三角形的内部C.平...
  17. librosa.stft的输出
  18. python培训抖音广告骗局
  19. 网站建设的流程及步骤是什么?
  20. 六招帮你解决平面设计排版

热门文章

  1. 四级联动(品名、材质、规格、产地)和自动完成的功能
  2. cad用pdf打印机闪退问题 解决2
  3. 使用do-while结构计算常数e的值。
  4. Unix道德经(英文版)
  5. linux服务器启动tomcat很慢解决方法
  6. SonicWALL常见监控说明及日志查看
  7. 点击QQ图标触发qq联系
  8. 迅雷Bolt的ClipSubBindBitmap函数特别说明
  9. C#生成电子印章源码
  10. 华为S5720-32X-EI-AC配置备份