最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了。这时候就知道OpenCC的强大了。哈哈,本来打算直接使用python里面的opencc模块的,但是在安装,编译opencc时遇到了各种错误。花费了很长时间,终于安装成功,但是文本处理起来效率很低。最终选择了直接在linux下安装OpenCC,处理的效率着实安慰了我受伤的心 -- 很快,特别快。

好啦,接下来总结下OpenCC的安装方法,万一以后又用到它了呢?主要参考这篇博客:

检查下linux环境下是否已经安装cmake以及git,如果没有,那就通过yum安装好。

$ yum install cmake

$ yum install git

克隆下OpennCC开源项目OpennCC开源项目。

$ git clone https://github.com/BYVoid/OpenCC

编译OpenCC

$ cd OpenCC

$ make

$ make install

创建libopencc.so.2链接

如果不知道libopencc.so.2的路径,可以通过find / -name libopencc.so.2查找。

$ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2

通过查看 OpenCC 版本,检查OpenCC是否已经安装成功

$ opencc --version

测试用例

# 繁体转简体

$ echo '歐幾里得 西元前三世紀的希臘數學家' | opencc -c t2s

欧几里得 西元前三世纪的希腊数学家

# 简体转繁体

$ echo '欧几里得 西元前三世纪的希腊数学家' | opencc -c s2t

歐幾里得 西元前三世紀的希臘數學家

# 可以通过以下方式直接对文件进行繁简转换

$ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json

linux 繁体中文转为简体,linux - 安装OpenCC(简体繁体转换)相关推荐

  1. linux给文本繁简转换,linux - 安装OpenCC(简体繁体转换)

    最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了.这时候就知道OpenCC的强大了.哈哈,本来打算直接使用python里面的opencc模块的,但是在安装,编 ...

  2. opencc在linux环境中,linux - 安装OpenCC(简体繁体转换)

    最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了.这时候就知道OpenCC的强大了.哈哈,本来打算直接使用python里面的opencc模块的,但是在安装,编 ...

  3. opencc在linux环境中,linux – 安装OpenCC(简体繁体转换)

    依赖:yum install doxygen 最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了.这时候就知道OpenCC的强大了.哈哈,本来打算直接使用pyt ...

  4. linux 繁体中文转为简体,中文繁简转换及其转换工具.pdf

    ·计算机教育·· 本栏目贲任编辑:主力 中文繁简转换及其转换工具 冯 霞 (北京师范大学中文信息处理研究所,北京100875) 摘要:简体中文和繁体中文是现代汉语并存的两种书面形式.它们在语音.词汇. ...

  5. linux下添加中文包,LINUX下中文语言包的安装

    解决Centos 5.8系统不能显示中文的异常: 1.安装如下软件包: fonts-chinese-3.02-9.6.el5.noarch.rpm fonts-ISO8859-2-75dpi-1.0- ...

  6. linux 接收中文数据乱码,linux中文乱码问题的解决方法

    这篇文章给大家分享的是有关linux中文乱码问题的解决方法的内容.小编觉得挺实用的,因此分享给大家做个参考.一起跟随小编过来看看吧. Linux中文乱码的解决方法:比如当log4j乱码时我们可以通过找 ...

  7. linux php 中文文件名乱码,linux文件名乱码

    linux文件名乱码 在windows上使用ftp上传文件到Linux上,中文名称在Linux系统中显示为乱码.虽然将Linux的env设置了LANG=en_US.UTF-8,并且本地的Shell客户 ...

  8. red linux 9 中文,Red Hat Linux 9 命令行中文显示问题

    tar.gz.tar.bz2的是源代码包,需要编译之后才能安装,在编译过程中你可以指定各种参数以适应你的系统需求,比如安装位置,优化参数,要哪些功能不要哪些功能等等. 这类源代码包需要解压后(tar. ...

  9. Linux下中文显示乱码 -- linux编码转换

    工欲善其事 必先利其器 Linux在稳定运行服务器的方面 一直是霸主 如此优秀 优秀 优秀的 人类高质量机器(狗头) ~~~~~~~~~~~~优雅~~~~~~~~~~~~ Linux下中文显示乱码,即 ...

最新文章

  1. vs服务器连接xp系统,xp系统远程连接服务器
  2. [MySQL FAQ]系列 -- 如何直接覆盖 MYI MYD 文件
  3. VIM-配置-.vimrc
  4. file协议访问linux,Mozilla Firefox for Android 'file'协议未授权访问漏洞(CVE-2014-1501)
  5. 图像灰度化的三种方法(matlab、C++、Python实现)
  6. java数组及循环专题练习(使用数组和循环结构实现一个简易的功能完善的订餐系统)
  7. java实现AES密钥生成
  8. ROS智能车定位导航仿真(原赛道自主导航,构建地图再导航)
  9. js高级--jsonp跨域
  10. 农夫山泉病毒性营销方案策划
  11. 什么是MTTF,MTBF,MTRF
  12. 说说大型网站可伸缩性架构的设计原理
  13. 从原理到实现 | 如何通过球面投影将点云转换为Range图像
  14. The analysis of frame
  15. 面对层出不穷的新技术,你是选择继续深耕原有技术,还是会尝试新技术?
  16. 压缩包密码忘记了打不开?教你用pyhton轻松解决,附视频讲解
  17. 智力竞赛抢答器的设计与调试
  18. 辞旧迎新:元旦,春节放假通知
  19. Linux 安装添加新的字体
  20. XML中大于号和小于号的写法

热门文章

  1. 机器视觉_相机开发(二)——大恒相机
  2. 中兴服务器 bmc 登不上
  3. 威斯康星麦迪逊计算机专业排名,威斯康星大学麦迪逊分校计算机工程类专业排名...
  4. 百度UEditor 图片粘贴上传,实现图文粘贴,图片自动上传
  5. 数据分析常见SQL面试笔试题
  6. Android判断有无外置SD卡(TF卡),并读写文件
  7. 关于机器人坐标系变换的笔记
  8. win10照片查看器_win10系统,图片查看器不见了咋办?教你调出传统图片查看器。...
  9. 排列组合Cnm的计算公式
  10. Mycat(7):分片详解之枚举