python借助OpenCC实现中文繁体转简体
中文繁体转简体需要用到工具OpenCC
该工具可以支持多种中文之间的转换
安装方式见:https://github.com/yichen0831/opencc-python
from opencc import OpenCC
from gensim.corpora.wikicorpus import filter_wiki
import re
cc = OpenCC('t2s')def wiki_replace(d):"""将繁体转成简体:param d: 文本:return:"""s=ds = re.sub(':*{\|[\s\S]*?\|}', '', s)s = re.sub('<gallery>[\s\S]*?</gallery>', '', s)s = re.sub('(.){{([^{}\n]*?\|[^{}\n]*?)}}', '\\1[[\\2]]', s)s = filter_wiki(s)s = re.sub('\* *\n|\'{2,}', '', s)s = re.sub('\n+', '\n', s)s = re.sub('\n[:;]|\n +', '\n', s)s = re.sub('\n==', '\n\n==', s)s = u'【' + d + u'】\n' + sreturn cc.convert(s).strip()
如无意外,会得到:
可以看见,繁体已经全部转成简体了。
python借助OpenCC实现中文繁体转简体相关推荐
- 【自然语言处理】opencc:中文繁体☞中文简体的转换
在看蚂蚁金服人工智能团队写的一篇关于中文的NLP的论文时,才知道有opencc这么个库,可以将中文繁体转为中文简体,大大简化了处理过程. 如果用的pycharm直接点开解释器,搜opencc,然后in ...
- python3怎么切换汉版_python3 中文繁体转换简体,简体转换为繁体,汉字转换拼音...
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和Te ...
- geartrax2020中文繁体转简体
1. 正常安装 2. 打开安装位置,找到geartrax2020→documents→languages→languagechi.gtxlng,右键记事本打开 3. 新建word文档,将记事本内所有内 ...
- 中文繁体和简体相互转换tranditional.txt文件
啊阿埃挨哎唉哀皚癌藹矮艾礙愛隘鞍氨安俺按暗岸胺案骯昂盎凹敖熬翱襖傲奧懊澳芭捌扒叭吧笆八疤巴拔跋靶把耙壩霸罷爸白柏百擺佰敗拜稗斑班搬扳般頒板版扮拌伴瓣半辦絆邦幫梆榜膀綁棒磅蚌鎊傍謗苞胞包褒剝薄雹保堡飽寶 ...
- 中文繁体和简体相互转换simplified.txt文件
啊阿埃挨哎唉哀皑癌蔼矮艾碍爱隘鞍氨安俺按暗岸胺案肮昂盎凹敖熬翱袄傲奥懊澳芭捌扒叭吧笆八疤巴拔跋靶把耙坝霸罢爸白柏百摆佰败拜稗斑班搬扳般颁板版扮拌伴瓣半办绊邦帮梆榜膀绑棒磅蚌镑傍谤苞胞包褒剥薄雹保堡饱宝 ...
- java utf8 简繁转换 类库_在Java中进行中文繁体简体转换,基于OpenCC(Open Chinese Convert)方案...
一.OpenCC介绍 OpenCC (Open Chinese Convert,开放中文转换) 是一个用于中文简繁转换的开源项目,支持词汇级别的转换.异体字转换和地区习惯用词转换(中国大陆.台湾.香港 ...
- 用opencc实现Wiki中文语料从繁体转换为简体
1,我遇见问题的描述 我想通过opencc来实现Wiki中文语料从繁体转换为简体 2,解决方法 2.1 软件以及数据准备 我到https://bintray.com/package/files/byv ...
- python中文文本分词_SnowNLP:?中文分词?词性标准?提取文本摘要,?提取文本关键词,?转换成拼音?繁体转简体的 处理中文文本的Python3 类库...
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和Te ...
- python实现中文繁体和中文简体之间的相互转换的代码
在学习过程中,把开发过程中重要的一些内容备份一下,下面内容是关于python实现中文繁体和中文简体之间的相互转换的内容,应该是对码农们有所好处. # 转换繁体到简体 line = Converter( ...
- 中文维基百科的语料库下载和繁体转换为简体的操作
中文维基百科的语料库下载和繁体转换为简体的操作 维基百科数据下载源https://dumps.wikimedia.org/backup-index.html] # from gensim.corpor ...
最新文章
- 14个Xcode中常用的快捷键操作
- windows下安装ubuntu 12.04---利用ubuntu的iso包中的wubi.exe工具安装
- python读取txt数据-Python读取txt数据文件,并作图
- centos下添加管理员组和添加管理员用户及相关操作
- 2017广东工业大学程序设计竞赛决赛 题解源码(A,数学解方程,B,贪心博弈,C,递归,D,水,E,贪心,面试题,F,贪心,枚举,LCA,G,dp,记忆化搜索,H,思维题)...
- JAVA揭竿而起总要有名号
- unity and MySql
- 使用SAP C4C rule editor动态控制UI上某个按钮是否显示 - SAP Cloud for Customer UI 规则编辑器的使用一例
- linux桌面环境丢失,一个pycharm引起ubuntu桌面丢失的惨案
- 工作56:element里面表单重置
- 你的早鸟票特权仅剩2天!百度、快手、商汤、图森等重磅嘉宾确认出席AI ProCon 2019...
- 详细讲解css单位px,em和rem的含义以及它们之间的区别
- C++queue队列与stack栈
- 【渝粤教育】国家开放大学2018年秋季 1323T内科护理学(本) 参考试题
- 编译原理三大经典书籍
- 花瓣网爬虫Python
- java对接PayPal支付(v1)
- parted如何将磁盘所有空间格式化_磁盘-使用parted格式化大容量数据盘
- 学前端需要什么学历?
- 韩波兄的好文:写给过去,现在和未来的自己