paip.输入法编程---词库多意义条目分割 python实现.

==========子标题
python mysql 数据库操作
多字符分隔,字符串分割
字符列表循环

作者老哇的爪子 Attilax 艾龙， EMAIL:1466519819@qq.com
来源： http://blog.csdn.net/attilax

===================主要的流程
词库原来格式
carp n.鲤鱼；v.吹毛求疵 813

需要意义分割..

主要的流程如下:

for   sqlQuery
{
    #多分隔符转换为一个..
    clearFmt(row)
   clearBrakets
   split(",") //
   for insert into grejx_def (en,cn)values('@en','@cn')"
}

----------------------实际代码如下
from db import *
#多分隔符转换为一个..
def clearFmt(Ss):
Spos="prep.,pron.,n.,v.,conj.,s.,sc.,o.,oc.,vi.,vt.,aux.v.,a.,ad.,art.,num.,int.,u.,c.,pl.,adj."
print(Spos)

pos_a=Spos.split(",")
for index,v in enumerate(pos_a):
Ss=Ss.replace(v, ",")

Ss=Ss.replace("；", ",")
    Ss=Ss.replace("，", ",")
    Ss=Ss.replace(" ", "")
    Ss=Ss.replace(",,", ",")
    Ss=Ss.replace(",,", ",")
    Ss=trim(Ss, ",")
    print(Ss)
    return Ss
""""
Ssx="v.支持，赞成；容忍；n.表情"
clearFmt(Ssx)
"""

def splitInsert(id, cnstr, en):
    cnstr=clearFmt(cnstr)
    cnstr_a=cnstr.split(",")

    for index,v in enumerate(cnstr_a):

        sql=" insert into grejx_def (en,cn)values('@en','@cn')"
        sql=sql.replace("@en", trim(en)).replace("@cn", v.strip())
        print(sql)
        reslt= execute(sql)
        print("---insert resl:")
        print(reslt)

from pkg import *
from pkg.strUtil import *

Sql="SELECT * FROM `grejx_def` where 1=1 and ( nAdjV like '%；%'   or nAdjV like '%，%'   or nAdjV like '%...%'   or nAdjV like '%,%'   or nAdjV like '%;%'    or LENGTH(nAdjV)>5 ) limit 10000"
print(Sql)
fdata=rs(Sql, conn)
for row in fdata:

    print(row)
    splitInsert(row['id'], row['nAdjV'], row['en'])


""""
for (en, cn, id) in cursor:
print(cn)
"""

paip.输入法编程---词库多意义条目分割 python实现.相关推荐

Google原生输入法LatinIME词库构建流程分析(二)
在Google原生输入法LatinIME词库构建流程分析(一) 中分析LatinIME构建流程进行到了dict_trie->dict_list_->init_list这一步,然后就是构建N ...
Google原生输入法LatinIME词库构建流程分析--相关数据结构分析
其实输入法词库相关数据结构的定义基本上都在头文件dictdef.h文件中,进入到代码目录cpp下. 初始化字库,首先读取txt文件内容到数据结构lemma_arr和valid_hzs中,lemma_a ...
初次尝试node爬虫(附赠前端和各种编程词库、coca20000词频表)
相信每一个开发做了一段时间的人都会知道英语对开发者的重要性,各种框架库的文档.更新日志.issue.各种变量命名.这些东西时效性都是很低的,如果只能一昧的等待别人汉化.更新,那永远都会被别人甩在后面, ...
ios 输入法扩展_如何给iOS系统原生输入法导入词库
一.越狱版 1. 设置 - 通用 - 键盘 - 文本替换随便添加一条内容,例如"nihao 你好" 2. 在 iFile 或 iFilza 根目录下搜索"CloudUs ...
Google原生输入法LatinIME词库扩容（Windows10环境）
去年在Linux(ubuntu)环境下针对LatinIME进行词库扩容处理,针对LatinIME的词库构建进行了一些列分析,大家可以查阅历史文章.词库扩容最近试了一下是可以的,具体流程大致如下(win ...
Google原生输入法LatinIME词库构建流程分析(三)--N-gram信息构建
N-gram信息的构建在ngram.cpp中进行构建: bool NGram::build_unigram(LemmaEntry *lemma_arr, size_t lemma_num,LemmaI ...
bat 等待输入_深蓝词库转换 - 简单的输入法词库转换工具
深蓝词库转换是一款输入法词库转换软件,支持包括搜狗拼音.QQ拼音.Windows 10 微软拼音在内的超过 20 种的输入法工具和词库.该程序支持批量转换(一次拖拽多个词库文件,或者按住 ...
新浪出输入法了，深蓝词库转换更新到1.3.1——增加对新浪拼音输入法的支持
新浪最近出了自己的输入法,具体介绍我就不说了,参见这里.由于之前一直做深蓝词库转换的工具,目前已经支持了大部分主流的输入法词库的转换,既然出了一个新的输入法,那么肯定要增加对这个输入法的词库的支持了. ...
新浪出输入法了，深蓝词库转换更新到1.3.1——增加对新浪拼音输入法的支持...
新浪最近出了自己的输入法,具体介绍我就不说了,参见这里.由于之前一直做深蓝词库转换的工具,目前已经支持了大部分主流的输入法词库的转换,既然出了一个新的输入法,那么肯定要增加对这个输入法的词库的支持了. ...
百度输入法重大BUG：内存占用随用户词库增大而暴涨
在此之前,我曾经发布过微头条<百度输入法占用内存突然暴涨>.当时我使用的百度输入法,内存占用达到了令人震惊的628兆. 经过多次测试,终于查清百度输入法内存暴涨的原因. 我一直怀疑可能和词 ...

paip.输入法编程---词库多意义条目分割 python实现.

paip.输入法编程---词库多意义条目分割 python实现.相关推荐

最新文章

热门文章