paip.输入法英文词库的处理 python 代码 o4
paip.输入法英文词库的处理 python 代码 o4
目标是eng>>>中文>>atian
当输入非atian词的时候儿,能打印出 atian pinyin >>>english提示.. ,在根据英文输入..
=====下载源词库
要下载一个格式好的词库文件还是很困难的..几乎没..只好自己写兰...
下载一个-GRE 8k词库..excel,删除不要的datasheet,导入mysql
格式如下:
abandon v./n.放弃;放纵
============需要做如下的数据清理:
分割出词性,分割出多个的中文词..如下
abandon 放弃 v./n.
abandon 放纵 v./n.
作者: 老哇的爪子Attilax 艾龙, EMAIL:1466519819@qq.com
来源:http://blog.csdn.net/attilax
====对应的代码python
conn2 = mysql.connector.connect(user=user, password=pwd, host=host, database=db)
cursorInsert = conn2.cursor()
import dicUtil
from dicUtil import *
#this must match field amout and order in sql
for (en, cn, id) in cursor:
if(hasTsisin(cn)):
tsisin=left_ByDot(cn)
cnstr=right_ByDot(cn)
else:
tsisin="nonx."
cnstr=cn
cnstr=cnstr.replace(";", ",")
cnstr=cnstr.replace(",", ",")
cnstr_a=cnstr.split(",")
# for index8 in range(len(list)):
# print index8
# print list[index8]
print (" "+tsisin+"---"+cnstr)
for index,v in enumerate(cnstr_a):
# print ()index
# print (v) strip
sql=" insert into grejx_def (en,cn,nAdjV)values('@en','@cn','@adj')"
sql=sql.replace("@en", trim(en)).replace("@cn", v.strip()).replace("@adj", tsisin.strip())
print(sql)
reslt=cursorInsert.execute(sql)
print("---insert resl:")
print(reslt)
conn2.commit()
def hasTsisin(str):
try:
lastIndex=str.rindex(".")
#print(lastIndex)
return True
except :
print("--no has dot"+ str)
return False
参考
excel背单词-TOEFL-GRE - 下载频道 - CSDN.NET
paip.输入法英文词库的处理 python 代码 o4相关推荐
- Google原生输入法LatinIME词库构建流程分析(二)
在Google原生输入法LatinIME词库构建流程分析(一) 中分析LatinIME构建流程进行到了dict_trie->dict_list_->init_list这一步,然后就是构建N ...
- python读取文本两个数字的成语_只要2步!将搜狗词库(scel)转为Python可读的文本...
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 将搜狗词库(scel)转化为python可读的文本(text)的方法方法 1. 利用R语言(方法简单) ① 载入词库(R语言) library(Rword ...
- 【扇贝批量添加单词到词库】利用python调用扇贝API (oauth2)
扇贝还是很不错的背单词系统,但是我一直不理解为什么官方提供的批量添加单词页面每次限制10个= =. 美剧党随手挤了很多单词准备导入的时候,还有从有道单词本导入的时候,都很尴尬..查了一下,还没有人写过 ...
- 扇贝python_【扇贝批量添加单词到词库】利用python调用扇贝API (oauth2)
扇贝还是很不错的背单词系统,但是我一直不理解为什么官方提供的批量添加单词页面每次限制10个= =. 美剧党随手挤了很多单词准备导入的时候,还有从有道单词本导入的时候,都很尴尬..查了一下,还没有人写过 ...
- Google原生输入法LatinIME词库构建流程分析--相关数据结构分析
其实输入法词库相关数据结构的定义基本上都在头文件dictdef.h文件中,进入到代码目录cpp下. 初始化字库,首先读取txt文件内容到数据结构lemma_arr和valid_hzs中,lemma_a ...
- ios 输入法扩展_如何给iOS系统原生输入法导入词库
一.越狱版 1. 设置 - 通用 - 键盘 - 文本替换 随便添加一条内容,例如"nihao 你好" 2. 在 iFile 或 iFilza 根目录下搜索"CloudUs ...
- Google原生输入法LatinIME词库扩容(Windows10环境)
去年在Linux(ubuntu)环境下针对LatinIME进行词库扩容处理,针对LatinIME的词库构建进行了一些列分析,大家可以查阅历史文章.词库扩容最近试了一下是可以的,具体流程大致如下(win ...
- 胡渊鸣:import一个“太极”库,让Python代码提速100倍!
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 众所周知,Py ...
- 【数据可视化应用】绘制词云图(附Python代码)
前言 当我们手中有一篇文档,比如书籍.小说.电影剧本,若想快速了解其主要内容是什么,则可以采用绘制 WordCloud 词云图,显示主要的关键词(高频词)这种方式,非常方便.本文将介绍常见的英文和中文 ...
- 胡渊鸣大神:import一个“太极”库,让Python代码提速100倍!
来源:量子位 众所周知,Python的简单和易读性是靠牺牲性能为代价的-- 尤其是在计算密集的情况下,比如多重for循环. 不过现在,大佬胡渊鸣说了: 只需import 一个叫做"Taich ...
最新文章
- Memcached在Asp.net下的应用
- python编的游戏可以直接玩吗_怎么用python开发游戏?
- 答辩完了该思考些什么
- 备份MySQL数据库的命令
- linux nfs 修复文件,linux nfs Read-only file system
- python画图配色_python matplotlib包图像配色方案分享
- oracle如何设置备份计划任务,Oracle数据库设置任务计划备份一周的备份记录
- PPTP-***第三章——用户流量与并发数限制
- Windows中,文件所在路径查找命令
- Gson反序列化详解
- 随机生成一串字符串(java)
- Vmware 可用的激活码
- LDA模型:建立词典+文本数量+建立文档TF-IDF+LDA模型拟合
- 预应力钢筒混凝土管(PCCP)行业发展现状及竞争格局分析报告2022-2027年版
- GSM/GPRS之一-GSM基础知识
- 【网络设备】H3C FW V7:安全域与域间策略
- python自制linux桌面,自己动手写Python实现Ubuntu自动切换壁纸
- 图论科学家教你如何安排婚礼座次
- Python通讯录案例
- 1427.分解质因数