在看蚂蚁金服人工智能团队写的一篇关于中文的NLP的论文时,才知道有opencc这么个库,可以将中文繁体转为中文简体,大大简化了处理过程。
如果用的pycharm直接点开解释器,搜opencc,然后install openCC即可。也可以在Terminal通过pip install opencc-python -i https: //pypi.doubanio.com/simple
举个栗子:

import opencccc = opencc.OpenCC()
print(cc.convert("「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫"))
「开放中文转换」,是一个致力于中文简繁转换的项目,提供高质量词库和函数库

可以看下转换效果非常好~
当然,openCC是一个类类型,其构造函数还有个参数为configconfig可取的值有四种,官方文档如下:

t2s - Traditional Chinese to Simplified Chinese
s2t - Simplified Chinese to Traditional Chinese
mix2t - Mixed to Traditional Chinese
mix2s - Mixed to Simplified Chinese

默认情况为t2s,即繁☞简,s2t简☞繁,mix2t与繁体中文混合,mix2s与简体中文混合。

import opencccc = opencc.OpenCC('s2t')
print(cc.convert("「开放中文转换」,是一个致力于中文简繁转换的项目,提供高质量词库和函数库"))
「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫

文本转换的栗子:
原文本:

import opencccc = opencc.OpenCC()
with open("train.txt", encoding='utf-8') as f:stringArr = [line.strip().split('\n') for line in f.readlines()]with open("convert.txt", mode='w', encoding='utf-8') as f:for s in stringArr:f.write(cc.convert(s[0]+'\n'))

转换后的文本:

【自然语言处理】opencc:中文繁体☞中文简体的转换相关推荐

  1. javascript 火星文,菊花体,繁体,简体文字转换

    前言:之前在百度应用里面看到了这个过类似的工具,很想知道怎么实现的. 琢磨下,自己写了一个,效果如下. <!-------HTML CODE----------> <!DOCTYPE ...

  2. geartrax2020中文繁体转简体

    1. 正常安装 2. 打开安装位置,找到geartrax2020→documents→languages→languagechi.gtxlng,右键记事本打开 3. 新建word文档,将记事本内所有内 ...

  3. 中文繁体和简体相互转换tranditional.txt文件

    啊阿埃挨哎唉哀皚癌藹矮艾礙愛隘鞍氨安俺按暗岸胺案骯昂盎凹敖熬翱襖傲奧懊澳芭捌扒叭吧笆八疤巴拔跋靶把耙壩霸罷爸白柏百擺佰敗拜稗斑班搬扳般頒板版扮拌伴瓣半辦絆邦幫梆榜膀綁棒磅蚌鎊傍謗苞胞包褒剝薄雹保堡飽寶 ...

  4. 中文繁体和简体相互转换simplified.txt文件

    啊阿埃挨哎唉哀皑癌蔼矮艾碍爱隘鞍氨安俺按暗岸胺案肮昂盎凹敖熬翱袄傲奥懊澳芭捌扒叭吧笆八疤巴拔跋靶把耙坝霸罢爸白柏百摆佰败拜稗斑班搬扳般颁板版扮拌伴瓣半办绊邦帮梆榜膀绑棒磅蚌镑傍谤苞胞包褒剥薄雹保堡饱宝 ...

  5. Android 修改app的语言(主要讲繁体与简体的转换)

    参考网址: (1).http://blog.csdn.net/liyuchong2537631/article/details/48292385 (2).http://www.jb51.net/art ...

  6. c++ 繁体中文与简体中文的转换

    项目需要,要将繁体中文转换为简体中文,纠结了很久,各种iconv转换编码.wchar_t与char转换等等都尝试了,总结一下: 1.繁体中文为big5编码,简体中文如gbk.utf等.iconv.h提 ...

  7. 用opencc实现Wiki中文语料从繁体转换为简体

    1,我遇见问题的描述 我想通过opencc来实现Wiki中文语料从繁体转换为简体 2,解决方法 2.1 软件以及数据准备 我到https://bintray.com/package/files/byv ...

  8. java utf8 简繁转换 类库_在Java中进行中文繁体简体转换,基于OpenCC(Open Chinese Convert)方案...

    一.OpenCC介绍 OpenCC (Open Chinese Convert,开放中文转换) 是一个用于中文简繁转换的开源项目,支持词汇级别的转换.异体字转换和地区习惯用词转换(中国大陆.台湾.香港 ...

  9. linux 繁体中文转为简体,linux - 安装OpenCC(简体繁体转换)

    最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了.这时候就知道OpenCC的强大了.哈哈,本来打算直接使用python里面的opencc模块的,但是在安装,编 ...

最新文章

  1. NeHe OpenGL教程 第二十三课:球面映射
  2. js基础-字符串常用属性合集
  3. 计算机组成原理CRC相关运算,计算机组成原理复习
  4. 安卓代码迁移:Make.exe: *** [libs/armabi-v7a/gdbserver] Error 1
  5. HR面 - 十大经典提问
  6. jmap+MAT实战内存溢出
  7. PCB常用度量衡单位
  8. js 跨域的问题 (同一个主域名不同的二级域名下的跨域问题) 解决 WdatePicker.js my97日期选择控件
  9. java等待页面加载_java selenium (十三) 智能等待页面加载完成
  10. iOS越狱开发theOS搭建
  11. dts directshow filter_DTS是什么?详解来了
  12. tomcat 如何进行优化?优化方案有哪些?
  13. scjp java程序员_Sun认证Java程序员(SCJP)考试
  14. 恭喜谷歌迈出抗议大猪蹄子第一步
  15. 国产恒辉数据库CS端管理工具
  16. 欧姆龙OMRON PLC之HostLink通讯协议(五)- CP1H以太网FINS/TCP通讯实例
  17. Oracle “ORA-00942: 表或视图不存在 “的原因和解决方法
  18. ptp精准时间协议_网络时钟同步协议– NTP, PTP – 默默的点滴
  19. Netflix是怎么火起来的
  20. WifiNetworkSelector 走读

热门文章

  1. 这可能是全网最完整的 Python 操作 Excel 库总结
  2. LeetCode题解(1533):找到最大整数的索引(Python)
  3. 高性能稳定芯片:IT66021是HDMI转TTL的视频转接芯片
  4. 随机森林的特征 是放回抽样么_通过随机森林的例子解释特征重要性
  5. 系统架构设计师考试题库笔记重点6:信息化基础
  6. 35. 池化层 / 汇聚层 代码实现
  7. py WebsocketServer创建的服务器与vue构建前端页面相互收发信息——猪猪侠方丈-px
  8. mpc台式计算机组装步骤,实用多媒体电脑组装指南
  9. WPF九宫格图片自定义皮肤(新博速读2.0)
  10. 多节点靶场(域渗透)