1 基本原理

  GB2312编码对一级汉字依照拼音首字母进行了编码范围的划分,所以只需要将汉字转为GB2312编码格式,我们就可以获取常见汉字的拼音首字母:

QString ChineseLetterHelper::GetFirstLetters(const QString &src)
{QString firstLetters;for (int i=0; i<src.length(); i++){QString str = src.at(i);QTextCodec* pCodec = QTextCodec::codecForName("gb2312");if(!pCodec) return QChar(' ');QByteArray arr = pCodec->fromUnicode(str);wchar_t wchr = 0;if(arr.size() == 1){wchr = arr.at(0) & 0xff;}else if(arr.size() == 2){wchr = (arr.at(0) & 0xff) << 8;wchr |= (arr.at(1) & 0xff);}else{//qDebug() << "unknown word";}char c = Convert(wchr);if(c != 0){firstLetters.append(c);}}return firstLetters;
}

2 以讹传讹的谬误

关于这个划分区域,网上流行的一个版本的代码如下:

char ChineseLetterHelper::Convert(int n)
{/** GB2312码范围 (B0A1-F7FE)* HiByte (B0-F7) LoByte (A1-FE)** GBK编码范围 (8140-FEFE)* 包含三大部分* 1.汉字区*      a. GB2312汉字区。即GBK/2*      b. GB13000.1扩充汉字区。包括GBK/3(CJK汉字)和GBK/4(CJK汉字和增补汉字)* 2.图形符号区*      a. GB2312非汉字区。即GBK/1 A1A1-A9FE。还有10个小写罗马数字和GB12345增补符号*      b. GB13000.1扩充非汉字区。即GBK/5 A840-A9A0非汉字符号、结构符...* 3.用户自定义区**/if (In(0xB0A1,0xB0C4,n)) return 'A';if (In(0XB0C5,0XB2C0,n)) return 'B';if (In(0xB2C1,0xB4ED,n)) return 'C';if (In(0xB4EE,0xB6E9,n)) return 'D';if (In(0xB6EA,0xB7A1,n)) return 'E';if (In(0xB7A2,0xB8c0,n)) return 'F';if (In(0xB8C1,0xB9FD,n)) return 'G';if (In(0xB9FE,0xBBF6,n)) return 'H';if (In(0xBBF7,0xBFA5,n)) return 'J';if (In(0xBFA6,0xC0AB,n)) return 'K';if (In(0xC0AC,0xC2E7,n)) return 'L';if (In(0xC2E8,0xC4C2,n)) return 'M';if (In(0xC4C3,0xC5B5,n)) return 'N';if (In(0xC5B6,0xC5BD,n)) return 'O';if (In(0xC5BE,0xC6D9,n)) return 'P';if (In(0xC6DA,0xC8BA,n)) return 'Q';if (In(0xC8BB,0xC8F5,n)) return 'R';if (In(0xC8F6,0xCBF0,n)) return 'S';if (In(0xCBFA,0xCDD9,n)) return 'T';if (In(0xCDDA,0xCEF3,n)) return 'W';if (In(0xCEF4,0xD188,n)) return 'X';if (In(0xD1B9,0xD4D0,n)) return 'Y';if (In(0xD4D1,0xD7F9,n)) return 'Z';if (In(0x00, 0x7f, n)) return n;return '\0';
}

  这个转换首字母的方式简洁又漂亮!
  但是使用后会发现有几个字是识别不出来的:

选   癣   眩   绚   靴   薛   学   穴   雪   血   勋   熏
循   旬   询   寻   驯   巡   殉   汛   训   讯   逊   迅

  注意代码的这2行

    if (In(0xCEF4,0xD188,n)) return 'X';if (In(0xD1B9,0xD4D0,n)) return 'Y';

其中0xD188和0xD1B9中间不是连续的,我们可以翻一下GB2312编码表
GB2312编码表
可以发现这里确实是代码发生了以讹传讹的谬误。可能都拿来就用了(笑)。

    if (In(0xCEF4,0xD188,n)) return 'X';//错误代码if (In(0xCEF4,0xD1B8,n)) return 'X';//修正后

  修正后这段代码就可以识别出我们常用的一级字库里的汉字了,但如果应用到项目中,一些二级字库中的比较生僻的汉字就没法识别了。

3 完美的解决方案

  那么有没有一个比较完美点的方案呢?通过查字库表,发现还是编码分区还是有规律可循的。但确实没有如上面那样简洁的解决方法了。只能通过暴力枚举了,还好有前人做了这部分工作,我们搬来用就好了。

  代码太长,直接放源码吧:
http://download.csdn.net/download/birdman_1992/10002293

Qt下汉字转拼音,包含二级汉字相关推荐

  1. java 实现汉字转拼音,java汉字简体转繁体 java汉字繁体转简体

    java 实现汉字转拼音,java汉字简体转繁体 java汉字繁体转简体 一.前言 java实现汉字转拼音,我的思路是需要一个字符和拼音的映射库."我"=wo,"们&qu ...

  2. 支持生僻字且自动识别utf-8编码的php汉字转拼音类,PHP汉字转拼音类(支持生僻字且自动识别utf-8编码)...

    这篇文章主要介绍了PHP汉字转拼音类(支持生僻字且自动识别utf-8编码),非常实用!需要的朋友可以参考下. 拼音类文件py_class.php源码如下: class py_class{ functi ...

  3. php 汉字转拼音类,PHP汉字转换拼音的类_php

    网络上类似的代码大多只能在gb2312编码下使用,下面这个类同时能在utf-8编码下将汉字转换为拼音,具体的代码和用法如下: function Pinyin($_String, $_Code='gb2 ...

  4. 汉字转拼音函数 linux,汉字转拼音项目pinyin-plus开源

    pinyin-plus 汉字转拼音的库,有如下特点 基于拼音词库的数据初始化分词引擎进行分词,准确度高,解决多音字的问题 支持繁体字 支持自定义词库,词库格式同cc-cedict字典格式 api 简单 ...

  5. java 实现汉字转换拼音_JAVA实现汉字转拼音功能代码实例

    JAVA中汉字转拼音的方法并不复杂,可以使用pinyin4j包来实现. 一.下载pinyin4j的架包,并导入项目中,如下: 如果是maven项目,maven依赖如下: com.belerweb pi ...

  6. python汉字转拼音代码_Python 汉字转换拼音代码

    # -*-coding:utf-8-*- # 返回汉字的拼音 def Return_pinyin(word): global reslist for line in reslist: if (word ...

  7. java 汉字转拼音_java中将汉字转换成拼音的实现代码

    一:演示:       如在控制台输入:北京欢迎你 打印出来的拼音:bei jing huan ying ni 二:导入要依赖的jar: 三:代码编写 public static String get ...

  8. java汉字转换拼音,获取汉字串拼音首字母

    首先要下载  pinyin4j  的jar包 import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin4j ...

  9. python怎么读汉字翻译拼音_Python 返回汉字的汉语拼音

    后来想到自己Delphi有一个获得拼音的代码.于是找了出来.研究了一下代码如下: function get_hz_pywb(hzstr: string; pytype: integer): strin ...

  10. java 汉字转拼音工具_java汉字转拼音工具类

    public classPinYinUtils {public staticHanyuPinyinOutputFormat PINYIN_FORMAT;static{ PINYIN_FORMAT= n ...

最新文章

  1. 中国科学院、东南大学等联合发表最新的视觉 Transformer 综述
  2. Json模块dumps、loads、dump、load函数介绍
  3. python3.5.3下载安装教程_在Python3.5下安装和测试
  4. java resume过时方法_学点开发|关于Java多线程用法解析
  5. 8.0ble设备 android_【胖猴小玩闹】智能门锁与BLE设备安全Part 4:一次BLE智能手环的小玩闹...
  6. 实战并发编程 - 01多线程读写同一共享变量的线程安全问题深入剖析
  7. 【中级软考】什么是实时操作系统?(RTOS:Real Time Operating System)
  8. HIS中的医学影像信息处理系统(PACS、RIS、LIS)
  9. 【模板】快速排序(洛谷-P1177)
  10. 免费送书的网站-每人限一本
  11. 智能实验室-杀马(Defendio) 4.27.0.951
  12. matlab2c使用c++实现matlab函数系列教程-circshift函数
  13. network 网络带宽
  14. java 三个点_Java Object定义三个点如何实现 Java Object定义三个点实现代码
  15. 比特鹏哥c语言视频,跟着鹏哥学习C语言
  16. 四阶龙格库塔法解一维扩散方程
  17. Vue开发环境的搭建
  18. phpcms v9给栏目添加自定义英文栏目名称字段图文教程
  19. 谷歌搜索、谷歌学术、Github的镜像网站
  20. Label-Specific Dual Graph Neural Network for Multi-Label Text Classification,ACL2021 finding

热门文章

  1. 宠物领养平台的分析与实现
  2. 社团挖掘算法——BGLL算法
  3. 十进制与二进制、八进制、十六进制对照表
  4. SSD固态硬盘知识简介
  5. yaahp使用教程_yaahp(yaahp教程使用视频)
  6. Idea格式化mybatis框架mapper文件
  7. 技术年货:美团技术沙龙合辑大放送——85个演讲,70+小时视频
  8. 【Java面试题】常见算法总结
  9. red5流媒体服务器系统,red5 流媒体服务器配置
  10. 深入浅出的etl作业调度工具taskctl