paip.输入法编程---词库多意义条目分割 python实现.
paip.输入法编程---词库多意义条目分割 python实现.
==========子标题
python mysql 数据库操作
多字符分隔,字符串分割
字符列表循环
作者 老哇的爪子 Attilax 艾龙, EMAIL:1466519819@qq.com
来源: http://blog.csdn.net/attilax
===================主要的流程
词库原来格式
carp n.鲤鱼;v.吹毛求疵 813
需要意义分割..
主要的流程如下:
for sqlQuery
{
#多分隔符转换为一个..
clearFmt(row)
clearBrakets
split(",") //
for insert into grejx_def (en,cn)values('@en','@cn')"
}
----------------------实际代码如下
from db import *
#多分隔符转换为一个..
def clearFmt(Ss):
Spos="prep.,pron.,n.,v.,conj.,s.,sc.,o.,oc.,vi.,vt.,aux.v.,a.,ad.,art.,num.,int.,u.,c.,pl.,adj."
print(Spos)
pos_a=Spos.split(",")
for index,v in enumerate(pos_a):
Ss=Ss.replace(v, ",")
Ss=Ss.replace(";", ",")
Ss=Ss.replace(",", ",")
Ss=Ss.replace(" ", "")
Ss=Ss.replace(",,", ",")
Ss=Ss.replace(",,", ",")
Ss=trim(Ss, ",")
print(Ss)
return Ss
""""
Ssx="v.支持,赞成;容忍;n.表情"
clearFmt(Ssx)
"""
def splitInsert(id, cnstr, en):
cnstr=clearFmt(cnstr)
cnstr_a=cnstr.split(",")
for index,v in enumerate(cnstr_a):
sql=" insert into grejx_def (en,cn)values('@en','@cn')"
sql=sql.replace("@en", trim(en)).replace("@cn", v.strip())
print(sql)
reslt= execute(sql)
print("---insert resl:")
print(reslt)
from pkg import *
from pkg.strUtil import *
Sql="SELECT * FROM `grejx_def` where 1=1 and ( nAdjV like '%;%' or nAdjV like '%,%' or nAdjV like '%...%' or nAdjV like '%,%' or nAdjV like '%;%' or LENGTH(nAdjV)>5 ) limit 10000"
print(Sql)
fdata=rs(Sql, conn)
for row in fdata:
print(row)
splitInsert(row['id'], row['nAdjV'], row['en'])
""""
for (en, cn, id) in cursor:
print(cn)
"""
paip.输入法编程---词库多意义条目分割 python实现.相关推荐
- Google原生输入法LatinIME词库构建流程分析(二)
在Google原生输入法LatinIME词库构建流程分析(一) 中分析LatinIME构建流程进行到了dict_trie->dict_list_->init_list这一步,然后就是构建N ...
- Google原生输入法LatinIME词库构建流程分析--相关数据结构分析
其实输入法词库相关数据结构的定义基本上都在头文件dictdef.h文件中,进入到代码目录cpp下. 初始化字库,首先读取txt文件内容到数据结构lemma_arr和valid_hzs中,lemma_a ...
- 初次尝试node爬虫(附赠前端和各种编程词库、coca20000词频表)
相信每一个开发做了一段时间的人都会知道英语对开发者的重要性,各种框架库的文档.更新日志.issue.各种变量命名.这些东西时效性都是很低的,如果只能一昧的等待别人汉化.更新,那永远都会被别人甩在后面, ...
- ios 输入法扩展_如何给iOS系统原生输入法导入词库
一.越狱版 1. 设置 - 通用 - 键盘 - 文本替换 随便添加一条内容,例如"nihao 你好" 2. 在 iFile 或 iFilza 根目录下搜索"CloudUs ...
- Google原生输入法LatinIME词库扩容(Windows10环境)
去年在Linux(ubuntu)环境下针对LatinIME进行词库扩容处理,针对LatinIME的词库构建进行了一些列分析,大家可以查阅历史文章.词库扩容最近试了一下是可以的,具体流程大致如下(win ...
- Google原生输入法LatinIME词库构建流程分析(三)--N-gram信息构建
N-gram信息的构建在ngram.cpp中进行构建: bool NGram::build_unigram(LemmaEntry *lemma_arr, size_t lemma_num,LemmaI ...
- bat 等待输入_深蓝词库转换 - 简单的输入法词库转换工具
深蓝词库转换 是一款 输入法词库转换 软件,支持包括 搜狗拼音.QQ拼音.Windows 10 微软拼音 在内的超过 20 种的输入法工具和词库.该程序支持 批量转换(一次拖拽多个词库文件,或者按住 ...
- 新浪出输入法了,深蓝词库转换更新到1.3.1——增加对新浪拼音输入法的支持
新浪最近出了自己的输入法,具体介绍我就不说了,参见这里.由于之前一直做深蓝词库转换的工具,目前已经支持了大部分主流的输入法词库的转换,既然出了一个新的输入法,那么肯定要增加对这个输入法的词库的支持了. ...
- 新浪出输入法了,深蓝词库转换更新到1.3.1——增加对新浪拼音输入法的支持...
新浪最近出了自己的输入法,具体介绍我就不说了,参见这里.由于之前一直做深蓝词库转换的工具,目前已经支持了大部分主流的输入法词库的转换,既然出了一个新的输入法,那么肯定要增加对这个输入法的词库的支持了. ...
- 百度输入法重大BUG:内存占用随用户词库增大而暴涨
在此之前,我曾经发布过微头条<百度输入法占用内存突然暴涨>.当时我使用的百度输入法,内存占用达到了令人震惊的628兆. 经过多次测试,终于查清百度输入法内存暴涨的原因. 我一直怀疑可能和词 ...
最新文章
- vba遍历数组_VBA代码解决方案的第59讲内容:如何在代码运行时创建数组
- python string.format(),Python string.format()百分比,不取整
- EJB3.0学习笔记---多接口的时,实现类处理方法:
- 视频换脸AISWAP技术示例
- ado mfc mysql_MFC 中用ADO访问数据库
- 关注的计算机视觉研究组和个人主页列表
- 贱人工具箱使用技巧2——多重复制命令
- 【02.06-02.13】长赢计划主理人“ETF拯救世界”微博精选
- 一年成为博客专家? 致!奋斗的自己
- 三国志战略版360区S4服务器合并信息,三国志战略版s4赛季开局选哪个州?平民开局起兵地推荐...
- 栈帧详解ebp、esp
- 学校计算机教室张贴些,计算机教室墙面布置方法是什么?
- Windows 下基于 MikTeX 的 Latex 环境配置小记
- 【渝粤教育】国家开放大学2019年春季 1292企业集团财务管理 参考试题
- 微信解封百度春晚红包
- git上传代码报错:hint: Updates were rejected because a pushed branch tip is behind its remote hint: counter
- SQL语句分类DDL、DML、DQL、DCL语句
- 20230221 git设置upstream
- 【2017】法定各种假期的规则及概念
- 日志2021年11月