我在之前写过一个小程序,用于实现QQ拼音、搜狗拼音、谷歌拼音和百度手机拼音输入法词库的互转,文章地址是:http://www.cnblogs.com/studyzy/archive/2009/12/31/1637030.html

本来我只是出于从将个人的词库从QQ拼音导入到搜狗拼音中,随手写的个小程序,结果哪知道原来大家都有和我类似的需求,希望实现各种输入法词库的相互转换;另外现在智能手机越来越多,在手机上的输入法也竞争相当激烈,QQ手机拼音、搜狗手机拼音、百度手机拼音等输入法都出来的,有些手机输入法也支持词库的导入导出,所以也用得到我这个词库互转程序。最近又有人提出,希望将搜狗的细胞词库和QQ的分类词库转换成其他输入法的词库,这个功能也很有必要,所以我打算继续折腾这个程序,将词库转换的范围继续扩大!

经过两天的努力,终于完成了我的词库转换小工具,将现有词库的以文本格式导出,然后选择源词库格式和新词库格式,单击“转换”按钮即可词库格式的转换。放出程序截图如图所示:

目前我这个转换小工具还只支持纯文本格式的词库,因为对于搜狗细胞词库(scel格式)和QQ分类词库(qpyd格式)我没有具体的解析这些词库的算法或者程序集,所以无法解析成文本并进行转换。如果大家谁知道怎么解析搜狗细胞词库和QQ分类词库的话还希望不吝赐教!

如果希望将搜狗细胞词库导入到谷歌拼音中,该怎么实现呢?首先需要到官方网站去下载txt格式的细胞词库,该词库中只有词条,没有拼音!选择该txt文件,然后选择“搜狗细胞词库Txt”作为转换源,以谷歌拼音作为目标格式即可!

对于没有拼音的文本词库,程序会找到每个字的拼音,自动生成带拼音的词库,这里面有一个问题是出现多音字怎么办?我在高级设置中给出了一个“忽略多音字”的选项,默认是选中的,所以会导致很多词的拼音是错误的,比如“音乐”会被拼写成“yin le”,因为乐是多音字,只取了其一个音“le”。如果取消了“忽略多音字”选项,那么所有的多音字的拼音就都会出现在词库中,形成词条中多音字的所有组合,如图所示:

本来1895个词条,经过多音字的组合,就变成了7597条!这样导致词库变得太大,而且输入法处理起来也困难,所以不建议使用。对于词条中多音字的处理不知道大家还有没有更好的办法能够获得一个词的准确拼音,不要将“音乐”变成“yin le”了。

另外我还设置了词条长度的筛选功能,将单个字的词条、长度大于指定长度的词条都筛选掉,不进行转换。

现在这个程序功能还很弱,只支持:百度手机、QQ手机、搜狗拼音、搜狗五笔、QQ拼音、谷歌拼音、搜狗细胞词库Txt,仍然有以下问题有待解决:

  • 如何解析搜狗细胞词库scel格式和QQ分类词库qpyd格式?
  • 如何获得QQ分类词库的Txt格式?
  • 如何获得一个词条的准确拼音?
  • 搜狗手机输入法好像不支持本地词库导入,电脑上的词库就没办法导入到其中了?
  • 支持更多的输入法类型的词库。

我已经将程序代码放到Google Code中,有兴趣的可以看看,地址:http://code.google.com/p/imewlconverter/

这里放出可执行文件,方便有同样需求的人来一起折腾词库,下载地址:/Files/studyzy/深蓝词库转换小工具-v1.0.zip

折腾词库,一个词库互转程序相关推荐

  1. python制作词云图设置停用词,Python生成词云图

    代码如下: from os import path from wordcloud import WordCloud import matplotlib matplotlib.use('TkAgg') ...

  2. 搜狗输入法词库php词库怎么用,中州韵输入法导入搜狗词库(示例代码)

    rime是一个非常优秀的输入法,linux平台下的反应速度远超搜狗,也没有隐私风险.2012年开始接触它,到后来抛弃了它,因为rime自带的词库真的太弱了,也懒得折腾.最近发现一个词库转换软件叫ime ...

  3. 优秀的词云展示第三方库——wordcloud

    概述 wordcloud是优秀的词云展示第三方库,以词语为基本单位,通过图形可视化的方式,更加直观和艺术的展示文本. 库安装 网络正常情况下命令行输入pip install wordcloud 基本使 ...

  4. es自建搜索词库_【ES从入门到实战】二十三、全文检索-ElasticSearch-分词-自定义扩展词库...

    接第22节 3).自定义词库 ik 分词器默认的分词并不能满足我们的需求,对于一些新的网络用语,ik 分词器就会无法准确的进行分词识别,比如: POST _analyze { "analyz ...

  5. python词云安装什么库_python词云安装什么库

    python词云需要安装wordcloud库. 安装方法: 在cmd使用pip install wordcloud命令即可安装. wordcloud库把词云当作一个WordCloud对象:wordcl ...

  6. python怎样安装词云库_python词云库wordcloud的使用方法与实例详解

    wordcloud是优秀的词云展示第三方库 一.基本使用 import jieba import wordcloud txt = open("1.txt", "r&quo ...

  7. python词云下载什么_python词云安装什么库

    python词云需要安装wordcloud库. 安装方法: 在cmd使用pip install wordcloud命令即可安装. wordcloud库把词云当作一个WordCloud对象:wordcl ...

  8. Python库:wordcloud库介绍、政府工作报告词云、自定义背景词云

    一.wordcloud库 二.使用wordcloud库 注:库名wordcloud全部是小写,而WordCloud对象W和C大写 简单说,绘制一个词云有三步: 第一.生成词云对象WordCloud,并 ...

  9. jieba分词库、WordCloud词云库、requests库

    python学习 jieba--分词库 安装jieba库 支持三种分词模式 WordCloud--生成词云库 安装WordCloud库 使用 requests 库 安装 requests 的 get ...

最新文章

  1. 每日一皮:当我在处理别人的代码时...
  2. iPad 3将获得Retina视网膜显示技术
  3. EKPO-PSTYP
  4. [剑指offer]面试题第[57-2]题[JAVA][和为s的连续正数序列][数学法][滑动窗口]
  5. 华为云内容审核—性能更加狂野,价格更加腼腆
  6. centos7+jexus5.8.3部署ASP.NET的MVC项目
  7. SpringBoot:事件的发布和监听
  8. R语言使用aov函数进行单因素方差分析(One-way ANOVA)、使用multcomp包的glht函数检验组均值之间所有成对对比差异、使用plot函数可视化Tukey HSD两两均值比较图
  9. Windows操作系统----事件日志----事件查看器
  10. 晶振讲述工作原理及作用
  11. 第四篇、代理模式详解(三种)
  12. 关于数据库的递归查询
  13. org.apache.ibatis.binding.BindingException: Invalid bound statement (not found):的三种解决方式
  14. 论坛mysql cpu100_解决 MYSQL CPU 占用 100% 的经验总结
  15. 1.ShowWindow
  16. 阐述清楚浮动的几种方法
  17. 大商创 pc网页跳转对应移动端网页
  18. 2021芯片验证秋招小结
  19. 形容计算机科学与技术的句子,关于描写未来科技的句子33条
  20. 高光谱学习---正交子空间投影法OSP(Orthogonal Subspace Projection)

热门文章

  1. css 字体样式设置大全
  2. 互联网创业的三年都学到了什么?
  3. 古天乐一哭,电影宣传又跪了下来
  4. 冰蝎Behinder_v4.0
  5. 石子合并问题(no circle)
  6. 探索汇率变动与股票价格的关系
  7. 我和CSDN的故事--学无止境
  8. python 如何添加国内源_pip和conda添加国内清华镜像源(亲测有效)
  9. 飞塔防火墙的配置与策略
  10. 安卓u盘格式化工具apk_华为智慧屏U盘安装APP分享