linux 繁体中文转为简体,linux - 安装OpenCC(简体繁体转换)
最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了。这时候就知道OpenCC的强大了。哈哈,本来打算直接使用python里面的opencc模块的,但是在安装,编译opencc时遇到了各种错误。花费了很长时间,终于安装成功,但是文本处理起来效率很低。最终选择了直接在linux下安装OpenCC,处理的效率着实安慰了我受伤的心 -- 很快,特别快。
好啦,接下来总结下OpenCC的安装方法,万一以后又用到它了呢?主要参考这篇博客:
检查下linux环境下是否已经安装cmake以及git,如果没有,那就通过yum安装好。
$ yum install cmake
$ yum install git
克隆下OpennCC开源项目OpennCC开源项目。
$ git clone https://github.com/BYVoid/OpenCC
编译OpenCC
$ cd OpenCC
$ make
$ make install
创建libopencc.so.2链接
如果不知道libopencc.so.2的路径,可以通过find / -name libopencc.so.2查找。
$ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
通过查看 OpenCC 版本,检查OpenCC是否已经安装成功
$ opencc --version
测试用例
# 繁体转简体
$ echo '歐幾里得 西元前三世紀的希臘數學家' | opencc -c t2s
欧几里得 西元前三世纪的希腊数学家
# 简体转繁体
$ echo '欧几里得 西元前三世纪的希腊数学家' | opencc -c s2t
歐幾里得 西元前三世紀的希臘數學家
# 可以通过以下方式直接对文件进行繁简转换
$ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json
linux 繁体中文转为简体,linux - 安装OpenCC(简体繁体转换)相关推荐
- linux给文本繁简转换,linux - 安装OpenCC(简体繁体转换)
最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了.这时候就知道OpenCC的强大了.哈哈,本来打算直接使用python里面的opencc模块的,但是在安装,编 ...
- opencc在linux环境中,linux - 安装OpenCC(简体繁体转换)
最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了.这时候就知道OpenCC的强大了.哈哈,本来打算直接使用python里面的opencc模块的,但是在安装,编 ...
- opencc在linux环境中,linux – 安装OpenCC(简体繁体转换)
依赖:yum install doxygen 最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了.这时候就知道OpenCC的强大了.哈哈,本来打算直接使用pyt ...
- linux 繁体中文转为简体,中文繁简转换及其转换工具.pdf
·计算机教育·· 本栏目贲任编辑:主力 中文繁简转换及其转换工具 冯 霞 (北京师范大学中文信息处理研究所,北京100875) 摘要:简体中文和繁体中文是现代汉语并存的两种书面形式.它们在语音.词汇. ...
- linux下添加中文包,LINUX下中文语言包的安装
解决Centos 5.8系统不能显示中文的异常: 1.安装如下软件包: fonts-chinese-3.02-9.6.el5.noarch.rpm fonts-ISO8859-2-75dpi-1.0- ...
- linux 接收中文数据乱码,linux中文乱码问题的解决方法
这篇文章给大家分享的是有关linux中文乱码问题的解决方法的内容.小编觉得挺实用的,因此分享给大家做个参考.一起跟随小编过来看看吧. Linux中文乱码的解决方法:比如当log4j乱码时我们可以通过找 ...
- linux php 中文文件名乱码,linux文件名乱码
linux文件名乱码 在windows上使用ftp上传文件到Linux上,中文名称在Linux系统中显示为乱码.虽然将Linux的env设置了LANG=en_US.UTF-8,并且本地的Shell客户 ...
- red linux 9 中文,Red Hat Linux 9 命令行中文显示问题
tar.gz.tar.bz2的是源代码包,需要编译之后才能安装,在编译过程中你可以指定各种参数以适应你的系统需求,比如安装位置,优化参数,要哪些功能不要哪些功能等等. 这类源代码包需要解压后(tar. ...
- Linux下中文显示乱码 -- linux编码转换
工欲善其事 必先利其器 Linux在稳定运行服务器的方面 一直是霸主 如此优秀 优秀 优秀的 人类高质量机器(狗头) ~~~~~~~~~~~~优雅~~~~~~~~~~~~ Linux下中文显示乱码,即 ...
最新文章
- vs服务器连接xp系统,xp系统远程连接服务器
- [MySQL FAQ]系列 -- 如何直接覆盖 MYI MYD 文件
- VIM-配置-.vimrc
- file协议访问linux,Mozilla Firefox for Android 'file'协议未授权访问漏洞(CVE-2014-1501)
- 图像灰度化的三种方法(matlab、C++、Python实现)
- java数组及循环专题练习(使用数组和循环结构实现一个简易的功能完善的订餐系统)
- java实现AES密钥生成
- ROS智能车定位导航仿真(原赛道自主导航,构建地图再导航)
- js高级--jsonp跨域
- 农夫山泉病毒性营销方案策划
- 什么是MTTF,MTBF,MTRF
- 说说大型网站可伸缩性架构的设计原理
- 从原理到实现 | 如何通过球面投影将点云转换为Range图像
- The analysis of frame
- 面对层出不穷的新技术,你是选择继续深耕原有技术,还是会尝试新技术?
- 压缩包密码忘记了打不开?教你用pyhton轻松解决,附视频讲解
- 智力竞赛抢答器的设计与调试
- 辞旧迎新:元旦,春节放假通知
- Linux 安装添加新的字体
- XML中大于号和小于号的写法