paip.输入法英文词库的处理 python 代码 o4

目标是eng>>>中文>>atian
当输入非atian词的时候儿,能打印出　　atian pinyin >>>english提示．． ,在根据英文输入．．

＝＝＝＝＝下载源词库
要下载一个格式好的词库文件还是很困难的．．几乎没．．只好自己写兰．．．

下载一个-GRE 8k词库．．excel，删除不要的ｄａｔａｓｈｅｅｔ，导入ｍｙｓｑｌ
格式如下：
abandon v./n.放弃；放纵　

＝＝＝＝＝＝＝＝＝＝＝＝需要做如下的数据清理：
分割出词性，分割出多个的中文词．．如下
abandon 放弃　 v./n.
abandon 放纵　 v./n.

作者: 老哇的爪子Attilax 艾龙， EMAIL:1466519819@qq.com
来源：http://blog.csdn.net/attilax

＝＝＝＝对应的代码ｐｙｔｈｏｎ
conn2 = mysql.connector.connect(user=user, password=pwd, host=host, database=db)

cursorInsert = conn2.cursor()
import dicUtil
from dicUtil import *
#this must match field amout and order in sql
for (en, cn, id) in cursor:
    if(hasTsisin(cn)):
        tsisin=left_ByDot(cn)
        cnstr=right_ByDot(cn)
    else:
        tsisin="nonx."
        cnstr=cn
    cnstr=cnstr.replace("；", ",")
    cnstr=cnstr.replace("，", ",")

    cnstr_a=cnstr.split(",")
#    for index8 in range(len(list)):
#        print index8
#      print list[index8]
    print (" "+tsisin+"---"+cnstr)
    for index,v in enumerate(cnstr_a):
      # print ()index
      # print (v) strip
        sql=" insert into grejx_def (en,cn,nAdjV)values('@en','@cn','@adj')"
        sql=sql.replace("@en", trim(en)).replace("@cn", v.strip()).replace("@adj", tsisin.strip())
        print(sql)
        reslt=cursorInsert.execute(sql)

        print("---insert resl:")
        print(reslt)
        conn2.commit()

def hasTsisin(str):
    try:
        lastIndex=str.rindex(".")
        #print(lastIndex)
        return True
    except :
        print("--no has dot"+ str)
        return False

参考
excel背单词-TOEFL-GRE - 下载频道 - CSDN.NET

paip.输入法英文词库的处理 python 代码 o4相关推荐

Google原生输入法LatinIME词库构建流程分析(二)
在Google原生输入法LatinIME词库构建流程分析(一) 中分析LatinIME构建流程进行到了dict_trie->dict_list_->init_list这一步,然后就是构建N ...
python读取文本两个数字的成语_只要2步！将搜狗词库(scel)转为Python可读的文本...
该楼层疑似违规已被系统折叠隐藏此楼查看此楼将搜狗词库(scel)转化为python可读的文本(text)的方法方法 1. 利用R语言(方法简单) ① 载入词库(R语言) library(Rword ...
【扇贝批量添加单词到词库】利用python调用扇贝API (oauth2)
扇贝还是很不错的背单词系统,但是我一直不理解为什么官方提供的批量添加单词页面每次限制10个= =. 美剧党随手挤了很多单词准备导入的时候,还有从有道单词本导入的时候,都很尴尬..查了一下,还没有人写过 ...
扇贝python_【扇贝批量添加单词到词库】利用python调用扇贝API (oauth2)
扇贝还是很不错的背单词系统,但是我一直不理解为什么官方提供的批量添加单词页面每次限制10个= =. 美剧党随手挤了很多单词准备导入的时候,还有从有道单词本导入的时候,都很尴尬..查了一下,还没有人写过 ...
Google原生输入法LatinIME词库构建流程分析--相关数据结构分析
其实输入法词库相关数据结构的定义基本上都在头文件dictdef.h文件中,进入到代码目录cpp下. 初始化字库,首先读取txt文件内容到数据结构lemma_arr和valid_hzs中,lemma_a ...
ios 输入法扩展_如何给iOS系统原生输入法导入词库
一.越狱版 1. 设置 - 通用 - 键盘 - 文本替换随便添加一条内容,例如"nihao 你好" 2. 在 iFile 或 iFilza 根目录下搜索"CloudUs ...
Google原生输入法LatinIME词库扩容（Windows10环境）
去年在Linux(ubuntu)环境下针对LatinIME进行词库扩容处理,针对LatinIME的词库构建进行了一些列分析,大家可以查阅历史文章.词库扩容最近试了一下是可以的,具体流程大致如下(win ...
胡渊鸣：import一个“太极”库，让Python代码提速100倍！
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达丰色发自凹非寺量子位 | 公众号 QbitAI 众所周知,Py ...
【数据可视化应用】绘制词云图（附Python代码）
前言当我们手中有一篇文档,比如书籍.小说.电影剧本,若想快速了解其主要内容是什么,则可以采用绘制 WordCloud 词云图,显示主要的关键词(高频词)这种方式,非常方便.本文将介绍常见的英文和中文 ...
胡渊鸣大神：import一个“太极”库，让Python代码提速100倍！
来源:量子位众所周知,Python的简单和易读性是靠牺牲性能为代价的-- 尤其是在计算密集的情况下,比如多重for循环. 不过现在,大佬胡渊鸣说了: 只需import 一个叫做"Taich ...

paip.输入法英文词库的处理 python 代码 o4

paip.输入法英文词库的处理 python 代码 o4相关推荐

最新文章

热门文章