最近项目中用到了简单的简繁转换,如果用OpenCC太重了,于是搜到了 zhconv 这个库。

zhconv 提供基于 MediaWiki 词汇表的最大正向匹配简繁转换,Python 2, 3 通用。

支持以下地区词转换:

  • zh-tw 台灣正體
  • zh-hk 香港繁體
  • zh-sg 马新简体
  • zh-hans 简体
  • zh-hant 繁體

正好适合我不求转换质量的轻量需求,所以介绍给更多需要的人。

而且虽然该项目stars很少,但中途发现作者还参与过维护jieba分词。

调用也非常简单

>>> from zhconv import convert
>>> convert('Python是一种动态的、面向对象的脚本语言', 'zh-hant')
'Python是一種動態的、面向對象的腳本語言'
复制代码

支持对地区化词语的转换

>>> convert('计算机软件', 'zh-tw')
'計算機軟體'
>>> convert('計算機軟體', 'zh-hans') # zh-hans只是逐字转换
'计算机软体'
>>> convert('計算機軟體', 'zh-cn')
'计算机软件'
复制代码

支持 MediaWiki 人工转换语法

>>> from zhconv import convert_for_mw
>>> s = '張國榮曾在英國-{zh:利兹;zh-hans:利兹;zh-hk:列斯;zh-tw:里茲}-大学學習。'
>>> convert_for_mw(s, 'zh-hans')
'张国荣曾在英国利兹大学学习。'
>>> convert_for_mw(s, 'zh-hk')
'張國榮曾在英國列斯大學學習。'
>>> convert_for_mw(s, 'zh-tw')
'張國榮曾在英國里茲大學學習。'
复制代码

当然对于复杂高精度的转换需求,还是建议用专业的OpenCC 开源库:

https://github.com/BYVoid/OpenCC

欢迎关注

微信公众号:面向人生编程

编程思维不应只存留在代码之中,更应伴随于整个人生旅途,这个公众号不只聊技术,还会聊产品/互联网/经济学等广泛话题,所以也欢迎非程序员关注。

Python 轻量化简繁转换相关推荐

  1. java utf8 简繁转换 类库_在Java中进行中文繁体简体转换,基于OpenCC(Open Chinese Convert)方案...

    一.OpenCC介绍 OpenCC (Open Chinese Convert,开放中文转换) 是一个用于中文简繁转换的开源项目,支持词汇级别的转换.异体字转换和地区习惯用词转换(中国大陆.台湾.香港 ...

  2. 使用Javascript直接将网页进行简繁转换 转

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 方法之一 ...

  3. 几行代码轻松搞定网页的简繁转换(转载)

    对网页进行简繁字体转换的方法一般有两种:一是使用<简繁通>这样的专业软件,另外一种是制作两套版本的网页.显然,这两种方法都较为麻烦,而且专业软件一般不能用于免费的空间.笔者在这里给大家提供 ...

  4. 使用Javascript直接将网页进行简繁转换[转]

    方法之一:直接在网页中加入下面的JavaScript代码或者另存为一个.js文件,然后引用: /简繁体转换 //模仿语言包式的简繁转换功能插件! //Edited by Stardy --2005-0 ...

  5. CVCode简繁转换的扩展:GBK与Big5转换

    CVCode使用码表对照的方式实现简繁转换,在Unicode盛行的今天仍然是有其现实意义的.   较常见的应用是,企业内有台籍员工,也有大陆员工,而且简体和繁体的OS都有使用,这样在MIS系统中如何保 ...

  6. NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→拼音简繁转换→情感分析→测试)

    NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→拼音&简繁转换→情感分析→测试) 目录 NLP分词 NLP词性标注 NLP情感分析-TEA NLP常 ...

  7. HanLP极致简繁转换详细讲解

    HanLP极致简繁转换详细讲解 谈起简繁转换,许多人以为是小意思,按字转换就行了.事实上,汉语历史悠久,地域复杂,发展至今在字符级别存在"一简对多繁"和"一繁对多简&qu ...

  8. SQL Server:简繁转换

    代码 --全部的简繁对照 declare @jall nvarchar(4000),@fall nvarchar(4000) select @jall=N'啊阿埃挨哎唉哀皑癌蔼矮艾碍爱隘鞍氨安俺按暗岸 ...

  9. gb2312简繁转换js兼容各种浏览器

    HTML 代码:  1 <! DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http: ...

最新文章

  1. 七段数码管段码表共阳_常用数字电路之显示篇数码管
  2. integer是值传递还是引用传递_数据值Value传递-高位传递
  3. 蓝桥杯第七届决赛JAVA真题----广场舞
  4. 设置UIImage的边框和圆角大小以及颜色
  5. c语言将pwd结果赋给变量,《网络系统管理linux实训》全套PPT电子课件教案-第4章 shell编程.ppt...
  6. 微信发布诱导违规APP处理公告:这次被点名的大家都认识
  7. [大学回忆录]尧山学习生活总结
  8. win10 mbr下装linux,(MBR模式)Win10下安装Ubuntu18.04双系统
  9. 4g内存电脑装xp系统怎么样_系统坏了?去店了重装系统又贵?今天手把手教你如何重装系统...
  10. python数据类型-字符串
  11. 软件测试 | 正交试验测试用例设计方法
  12. 微星主板rgb_微星10款B550主板集体发布:标配PCIe 4.0、支持Zen3
  13. 使用ffmpeg从视频中提取纯音频纯视频
  14. Docker系列(8) Docker网络(3)-- 单机Docker网络配置
  15. windows日志文件查看与清理
  16. mysql查询自然周_Hive和MySQL中自然周保持一致的方法
  17. 树莓派Win10镜像下载安装教程及使用初体验
  18. 11 JavaScript删除链表的节点 牛客网JZ18
  19. Sublime Text正确的打开方式
  20. 武汉星起航跨境电商到底靠不靠谱?亚马逊跨境收款方式有哪些?

热门文章

  1. android横竖屏切换动画,Android应用怎么实现屏幕横竖屏切换功能
  2. Acwing 游戏时间 C++ python
  3. mysql udp提权_SQL Server数据库1433端口解封提权
  4. ssh信任与scp自动传输
  5. ORA-28547:connection to server failed,probable Oracle net admin errror
  6. 爬取前程无忧网站数据
  7. 直流电压传感器(安科瑞-卓宋兰)
  8. 遇到问题---kubectl delete deployments报错Error from server (NotFound): the server could not find the reque
  9. 【Few-Shot Segmentation论文阅读笔记】PANet: Few-Shot Image Semantic Segmentation with Prototype , ICCV, 2019
  10. Edge主页被360篡改的解决办法