paip.输入法英文词库的处理 python 代码 o4

目标是eng>>>中文>>atian
当输入非atian词的时候儿,能打印出  atian pinyin >>>english提示..  ,在根据英文输入..

=====下载源词库
要下载一个格式好的词库文件还是很困难的..几乎没..只好自己写兰...

下载一个-GRE 8k词库..excel,删除不要的datasheet,导入mysql
格式如下:
abandon    v./n.放弃;放纵     

============需要做如下的数据清理:
分割出词性,分割出多个的中文词..如下
abandon    放弃         v./n.
abandon    放纵         v./n.

作者: 老哇的爪子Attilax 艾龙,  EMAIL:1466519819@qq.com
来源:http://blog.csdn.net/attilax

====对应的代码python
conn2 = mysql.connector.connect(user=user, password=pwd, host=host, database=db)

cursorInsert = conn2.cursor()
import dicUtil
from dicUtil import *
#this must match field amout and order in sql
for (en, cn, id) in cursor:
    if(hasTsisin(cn)):
        tsisin=left_ByDot(cn)
        cnstr=right_ByDot(cn)
    else:
        tsisin="nonx."
        cnstr=cn
    cnstr=cnstr.replace(";", ",")
    cnstr=cnstr.replace(",", ",")  
    
    cnstr_a=cnstr.split(",")
#    for index8 in range(len(list)):
#        print index8
#      print list[index8]
    print (" "+tsisin+"---"+cnstr)
    for index,v in enumerate(cnstr_a):
      #  print ()index
      #  print (v) strip
        sql=" insert into grejx_def (en,cn,nAdjV)values('@en','@cn','@adj')"
        sql=sql.replace("@en", trim(en)).replace("@cn", v.strip()).replace("@adj", tsisin.strip())
        print(sql)
        reslt=cursorInsert.execute(sql)
        
        print("---insert resl:")
        print(reslt)
        conn2.commit()
       
def hasTsisin(str):
    try:
        lastIndex=str.rindex(".")
        #print(lastIndex)
        return True
    except :
        print("--no has dot"+ str)
        return False

参考
excel背单词-TOEFL-GRE - 下载频道 - CSDN.NET

paip.输入法英文词库的处理 python 代码 o4相关推荐

  1. Google原生输入法LatinIME词库构建流程分析(二)

    在Google原生输入法LatinIME词库构建流程分析(一) 中分析LatinIME构建流程进行到了dict_trie->dict_list_->init_list这一步,然后就是构建N ...

  2. python读取文本两个数字的成语_只要2步!将搜狗词库(scel)转为Python可读的文本...

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 将搜狗词库(scel)转化为python可读的文本(text)的方法方法 1. 利用R语言(方法简单) ① 载入词库(R语言) library(Rword ...

  3. 【扇贝批量添加单词到词库】利用python调用扇贝API (oauth2)

    扇贝还是很不错的背单词系统,但是我一直不理解为什么官方提供的批量添加单词页面每次限制10个= =. 美剧党随手挤了很多单词准备导入的时候,还有从有道单词本导入的时候,都很尴尬..查了一下,还没有人写过 ...

  4. 扇贝python_【扇贝批量添加单词到词库】利用python调用扇贝API (oauth2)

    扇贝还是很不错的背单词系统,但是我一直不理解为什么官方提供的批量添加单词页面每次限制10个= =. 美剧党随手挤了很多单词准备导入的时候,还有从有道单词本导入的时候,都很尴尬..查了一下,还没有人写过 ...

  5. Google原生输入法LatinIME词库构建流程分析--相关数据结构分析

    其实输入法词库相关数据结构的定义基本上都在头文件dictdef.h文件中,进入到代码目录cpp下. 初始化字库,首先读取txt文件内容到数据结构lemma_arr和valid_hzs中,lemma_a ...

  6. ios 输入法扩展_如何给iOS系统原生输入法导入词库

    一.越狱版 1. 设置 - 通用 - 键盘 - 文本替换 随便添加一条内容,例如"nihao 你好" 2. 在 iFile 或 iFilza 根目录下搜索"CloudUs ...

  7. Google原生输入法LatinIME词库扩容(Windows10环境)

    去年在Linux(ubuntu)环境下针对LatinIME进行词库扩容处理,针对LatinIME的词库构建进行了一些列分析,大家可以查阅历史文章.词库扩容最近试了一下是可以的,具体流程大致如下(win ...

  8. 胡渊鸣:import一个“太极”库,让Python代码提速100倍!

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 众所周知,Py ...

  9. 【数据可视化应用】绘制词云图(附Python代码)

    前言 当我们手中有一篇文档,比如书籍.小说.电影剧本,若想快速了解其主要内容是什么,则可以采用绘制 WordCloud 词云图,显示主要的关键词(高频词)这种方式,非常方便.本文将介绍常见的英文和中文 ...

  10. 胡渊鸣大神:import一个“太极”库,让Python代码提速100倍!

    来源:量子位 众所周知,Python的简单和易读性是靠牺牲性能为代价的-- 尤其是在计算密集的情况下,比如多重for循环. 不过现在,大佬胡渊鸣说了: 只需import 一个叫做"Taich ...

最新文章

  1. Memcached在Asp.net下的应用
  2. python编的游戏可以直接玩吗_怎么用python开发游戏?
  3. 答辩完了该思考些什么
  4. 备份MySQL数据库的命令
  5. linux nfs 修复文件,linux nfs Read-only file system
  6. python画图配色_python matplotlib包图像配色方案分享
  7. oracle如何设置备份计划任务,Oracle数据库设置任务计划备份一周的备份记录
  8. PPTP-***第三章——用户流量与并发数限制
  9. Windows中,文件所在路径查找命令
  10. Gson反序列化详解
  11. 随机生成一串字符串(java)
  12. Vmware 可用的激活码
  13. LDA模型:建立词典+文本数量+建立文档TF-IDF+LDA模型拟合
  14. 预应力钢筒混凝土管(PCCP)行业发展现状及竞争格局分析报告2022-2027年版
  15. GSM/GPRS之一-GSM基础知识
  16. 【网络设备】H3C FW V7:安全域与域间策略
  17. python自制linux桌面,自己动手写Python实现Ubuntu自动切换壁纸
  18. 图论科学家教你如何安排婚礼座次
  19. Python通讯录案例
  20. 1427.分解质因数

热门文章

  1. 设计模式——组合设计模式
  2. ipvsadm命令的用法
  3. HTML标签嵌套到底怎样才算是规范?
  4. Debian for ARM install python 3.5.x
  5. hbm.xml支持的类型
  6. Android下图片或按钮等可拖动到任意位置的效果实现源码
  7. devise的使用的中文教程
  8. 数据库连接客户端 dbeaver 程序包以及使用说明
  9. MySQL-快速入门(1)基本数据库、表操作语句
  10. 洛谷 P2678 [NOIP2015提高组] 跳石头(二分答案)