Python 汉字转拼音的库--- PyPinyin

Python 中提供了汉字转拼音的库,名字叫做 PyPinyin,可以用于汉字注音、排序、检索等等场合,是基于 hotto/pinyin 这个库开发的,一些站点链接如下:

  • GitHub:

    https://github.com/mozillazg/python-pinyin

  • 文档:

    https://pypinyin.readthedocs.io/zh_CN/master/

  • PyPi:

    https://pypi.org/project/pypinyin/

它有这么几个特性:

  • 根据词组智能匹配最正确的拼音。

  • 支持多音字。

  • 简单的繁体支持, 注音支持。

  • 支持多种不同拼音/注音风格。

是不是等不及了呢?那就让我们来了解一下它的用法吧!

安装

首先就是这个库的安装了,通过 pip 安装即可:

pip3 install pypinyin

安装完成之后导入一下这个库,如果不报错,那就说明安装成功了。

>>> import pypinyin

好,接下来我们看下它的具体功能。

基本拼音

首先我们进行一下基本的拼音转换,方法非常简单,直接调用 pinyin 方法即可:

from pypinyin import pinyinprint(pinyin('中心'))

运行结果:

[['zhōng'], ['xīn']]

可以看到结果会是一个二维的列表,每个元素都另外成了一个列表,其中包含了每个字的读音。

那么如果这个词是多音字咋办呢?比如 "朝阳",它有两个读音,我们拿来试下:

from pypinyin import pinyinprint(pinyin('朝阳'))

运行结果:

[['zhāo'], ['yáng']]

好吧,它只给出来了一个读音,但是如果我们想要另外一种读音咋办呢?

其实很简单,只需添加 heteronym 参数并设置为 True 就好了,我们试下:

from pypinyin import pinyinprint(pinyin('朝阳', heteronym=True))

运行结果:

[['zhāo', 'cháo'], ['yáng']]

OK 了,这下子就显示出来了两个读音了,而且我们也明白了结果为什么是一个二维列表,因为里面的一维的结果可能是多个,比如多音字的情况就是这样。

但这个多少解析起来有点麻烦,很多情况下我们是不需要管多音字的,我们只是用它来转换一下名字而已,而处理上面的二维数组又比较麻烦。

所以有没有一个方法直接给我们一个一维列表呢?有!

我们可以使用 lazy_pinyin 这个方法来生成,尝试一下:

from pypinyin import pinyinprint(pinyin('聪明的小兔子'))

运行结果:

['cong', 'ming', 'de', 'xiao', 'tu', 'zi']

这时候观察到得到的是一个列表,并且不再包含音调了。

这里我们就有一个疑问了,为啥 pinyin 方法返回的结果默认是带音调的,而 lazy_pinyin 是不带的,这里面就涉及到一个风格转换的问题了。

风格转换

我们可以对结果进行一些风格转换,比如不带声调风格、标准声调风格、声调在拼音之后、声调在韵母之后、注音风格等等,比如我们想要声调放在拼音后面,可以这么来实现:

from pypinyin import lazy_pinyin, Stylestyle = Style.TONE3print(lazy_pinyin('聪明的小兔子', style=style))

运行结果:

['cong1', 'ming2', 'de', 'xiao3', 'tu4', 'zi']

可以看到运行结果每个拼音后面就多了一个声调,这就是其中的一个风格,叫做 TONE3,其实还有很多风格,下面是我从源码里面找出来的定义:

#: 普通风格,不带声调。如: 中国 -> ``zhong guo``NORMAL = 0#: 标准声调风格,拼音声调在韵母第一个字母上(默认风格)。如: 中国 -> ``zhōng guó``TONE = 1#: 声调风格2,即拼音声调在各个韵母之后,用数字 [1-4] 进行表示。如: 中国 -> ``zho1ng guo2``TONE2 = 2#: 声调风格3,即拼音声调在各个拼音之后,用数字 [1-4] 进行表示。如: 中国 -> ``zhong1 guo2``TONE3 = 8#: 声母风格,只返回各个拼音的声母部分(注:有的拼音没有声母,详见 `#27`_)。如: 中国 -> ``zh g``INITIALS = 3#: 首字母风格,只返回拼音的首字母部分。如: 中国 -> ``z g``FIRST_LETTER = 4#: 韵母风格,只返回各个拼音的韵母部分,不带声调。如: 中国 -> ``ong uo``FINALS = 5#: 标准韵母风格,带声调,声调在韵母第一个字母上。如:中国 -> ``ōng uó``FINALS_TONE = 6#: 韵母风格2,带声调,声调在各个韵母之后,用数字 [1-4] 进行表示。如: 中国 -> ``o1ng uo2``FINALS_TONE2 = 7#: 韵母风格3,带声调,声调在各个拼音之后,用数字 [1-4] 进行表示。如: 中国 -> ``ong1 uo2``FINALS_TONE3 = 9#: 注音风格,带声调,阴平(第一声)不标。如: 中国 -> ``ㄓㄨㄥ ㄍㄨㄛˊ``BOPOMOFO = 10#: 注音风格,仅首字母。如: 中国 -> ``ㄓ ㄍ``BOPOMOFO_FIRST = 11#: 汉语拼音与俄语字母对照风格,声调在各个拼音之后,用数字 [1-4] 进行表示。如: 中国 -> ``чжун1 го2``CYRILLIC = 12#: 汉语拼音与俄语字母对照风格,仅首字母。如: 中国 -> ``ч г``CYRILLIC_FIRST = 13

有了这些,我们就可以轻松地实现风格转换了。

好,再回到原来的问题,为什么 pinyin 的方法默认带声调,而 lazy_pinyin 方法不带声调,答案就是:它们二者使用的默认风格不同,我们看下它的函数定义就知道了:

pinyin 方法的定义如下:

def pinyin(hans, style=Style.TONE, heteronym=False, errors='default', strict=True)

lazy_pinyin 方法的定义如下:

def lazy_pinyin(hans, style=Style.NORMAL, errors='default', strict=True)

这下懂了吧,因为 pinyin 方法默认使用了 TONE 的风格,而 lazy_pinyin 方法默认使用了 NORMAL 的风格,所以就导致二者返回风格不同了。

好了,有了这两个函数的定义,我们再来研究下其他的参数,比如定义里面的 errors 和 strict 参数又怎么用呢?

错误处理

在这里我们先做一个测试,比如我们传入无法转拼音的字,比如:

from pypinyin import lazy_pinyinprint(lazy_pinyin('你好☆☆,我是xxx'))

其中包含了星号两个,还有标点一个,另外还包含了一个 xxx 英文字符,结果会是什么呢?

['ni', 'hao', '☆☆,', 'wo', 'shi', 'xxx']

可以看到结果中星号和英文字符都作为一个整体并原模原样返回了。

那么这种特殊字符可以单独进行处理吗?当然可以,这里就用到刚才提到的 errors 参数了。

errors 参数是有几种模式的:

  • default:默认行为,不处理,原木原样返回

  • ignore:忽略字符,直接抛掉

  • replace:直接替换为去掉   \u   的 unicode 编码

  • callable 对象:当传入一个可调用的对象的时候,则可以自定义处理方式。

下面是 errors 这个参数的源码实现逻辑:

def _handle_nopinyin_char(chars, errors='default'):    """处理没有拼音的字符"""    if callable_check(errors):        return errors(chars)    if errors == 'default':        return chars    elif errors == 'ignore':        return None    elif errors == 'replace':        if len(chars) > 1:            return ''.join(text_type('%x' % ord(x)) for x in chars)        else:            return text_type('%x' % ord(chars))

当处理没有拼音的字符的时候,errors 的不同参数会有不同的处理结果,更详细的逻辑可以翻看源码。

好了,下面我们来尝试一下,比如我们想将不能转拼音的字符去掉,则可以这么设置:

from pypinyin import lazy_pinyinprint(lazy_pinyin('你好☆☆,我是xxx', errors='ignore'))

运行结果:

['ni', 'hao', 'wo', 'shi']

如果我们想要自定义处理,比如把     转化为   ,则可以这么设置:

print(lazy_pinyin('你好☆☆,我是xxx', errors=lambda item: ''.join(['※' if c == '☆' else c for c in item])))

运行结果:

['ni', 'hao', '※※,', 'wo', 'shi', 'xxx']

如上便是一些相关异常处理的操作,我们可以随心所欲地处理自己想处理的字符了。

严格模式

最后再看下 strict 模式,这个参数用于控制处理声母和韵母时是否严格遵循 《汉语拼音方案》 标准。

下面的一些说明来源于官方文档:

当 strict 参数为 True 时根据 《汉语拼音方案》 的如下规则处理声母、在韵母相关风格下还原正确的韵母:

  • 21 个声母:   b p m f d t n l g k h j q x zh ch sh r z c s   ( y, w 不是声母

  • i行的韵母,前面没有声母的时候,写成yi(衣),ya(呀),ye(耶),yao(腰),you(忧),yan(烟), yin(因),yang(央),ying(英),yong(雍)。( y 不是声母

  • u行的韵母,前面没有声母的时候,写成wu(乌),wa(蛙),wo(窝),wai(歪),wei(威),wan(弯), wen(温),wang(汪),weng(翁)。( w 不是声母

  • ü行的韵母,前面没有声母的时候,写成yu(迂),yue(约),yuan(冤),yun(晕);ü上两点省略。 ( 韵母相关风格下还原正确的韵母 ü

  • ü行的韵跟声母j,q,x拼的时候,写成ju(居),qu(区),xu(虚),ü上两点也省略; 但是跟声母n,l拼的时候,仍然写成nü(女),lü(吕)。( 韵母相关风格下还原正确的韵母 ü

  • iou,uei,uen前面加声母的时候,写成iu,ui,un。例如niu(牛),gui(归),lun(论)。 ( 韵母相关风格下还原正确的韵母 iou,uei,uen

当 strict 为 False 时就是不遵守上面的规则来处理声母和韵母, 比如: y ,   w   会被当做声母,yu(迂) 的韵母就是一般认为的   u   等。

具体差异可以查看源码中 tests/test_standard.py 中的对比结果测试用例。

自定义拼音

如果对库返回的结果不满意,我们还可以自定义自己的拼音库,这里用到的方法就有 load_single_dict 和 load_phrases_dict 方法了。

比如刚才我们看到 "朝阳" 两个字的发音默认返回的是 zhao yang,我们想默认返回 chao yang,那可以这么做:

from pypinyin import lazy_pinyin, load_phrases_dictprint(lazy_pinyin('朝阳'))personalized_dict = {    '朝阳': [['cháo'], ['yáng']]}load_phrases_dict(personalized_dict)print(lazy_pinyin('朝阳'))

这里我们自定义了一个词典,然后使用 load_phrases_dict 方法设置了一下就可以了。

运行结果:

['zhao', 'yang']['chao', 'yang']

这样就可以完成自定义的设置了。

在一些项目里面我们可以自定义很多拼音库,然后加载就可以了。

另外我们还可以注册样式实现自定义,比如将某个拼音前面加上 Emoji 表情,样例:

from pypinyin.style import registerfrom pypinyin import lazy_pinyin@register('kiss')def kiss(pinyin, **kwargs):    if pinyin == 'me':        return f'?{pinyin}'    return pinyinprint(lazy_pinyin('么么哒', style='kiss'))

运行结果:

['?me', '?me', 'dá']

这里我们调用 register 方法注册了一个样式 style,然后转换的时候指定即可,通过观察运行结果我们可以发现,这样我们就可以将 me 字的拼音前面加上 ? 这个 Emoji 表情了。

以上就是 PyPinyin 这个库的基本用法,更多的用法建议大家看看源码或者看 API 文档:https://pypinyin.readthedocs.io/zh_CN/master/api.html。



About Me

........................................................................................................................

● 本文作者:小麦苗,部分内容整理自网络,若有侵权请联系小麦苗删除

● 本文在itpub( http://blog.itpub.net/26736162 )、博客园( http://www.cnblogs.com/lhrbest )和个人weixin公众号( xiaomaimiaolhr )上有同步更新

● 本文itpub地址: http://blog.itpub.net/26736162

● 本文博客园地址: http://www.cnblogs.com/lhrbest

● 本文pdf版、个人简介及小麦苗云盘地址: http://blog.itpub.net/26736162/viewspace-1624453/

● 数据库笔试面试题库及解答: http://blog.itpub.net/26736162/viewspace-2134706/

● DBA宝典今日头条号地址: http://www.toutiao.com/c/user/6401772890/#mid=1564638659405826

........................................................................................................................

● QQ群号: 230161599 (满) 、618766405

● weixin群:可加我weixin,我拉大家进群,非诚勿扰

● 联系我请加QQ好友 ( 646634621 ) ,注明添加缘由

● 于 2019-05-01 06:00 ~ 2019-05-30 24:00 在魔都完成

● 最新修改时间:2019-05-01 06:00 ~ 2019-05-30 24:00

● 文章内容来源于小麦苗的学习笔记,部分整理自网络,若有侵权或不当之处还请谅解

● 版权所有,欢迎分享本文,转载请保留出处

........................................................................................................................

● 小麦苗的微店 : https://weidian.com/s/793741433?wfr=c&ifr=shopdetail

● 小麦苗出版的数据库类丛书 : http://blog.itpub.net/26736162/viewspace-2142121/

● 小麦苗OCP、OCM、高可用网络班 : http://blog.itpub.net/26736162/viewspace-2148098/

● 小麦苗腾讯课堂主页 : https://lhr.ke.qq.com/

........................................................................................................................

使用 weixin客户端 扫描下面的二维码来关注小麦苗的weixin公众号( xiaomaimiaolhr )及QQ群(DBA宝典)、添加小麦苗weixin, 学习最实用的数据库技术。

........................................................................................................................

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26736162/viewspace-2645039/,如需转载,请注明出处,否则将追究法律责任。

Python 汉字转拼音的库--- PyPinyin相关推荐

  1. python 汉字与拼音的转换--pypinyin

    1. 安装pypinyin module $ pip install pypinyin 2. 使用方法 >>> from pypinyin import pinyin, lazy_p ...

  2. Python 汉字转拼音库 pypinyin, 附:汉字拼音转换工具

    一.初衷: 一些开源软件的配置文件中识别区分的部分用英文,那么我们在批量生成配置文件的时候,可以从CMDB导入汉字(idc_name), 然后将它转换成拼音,再或者拼接上IP地址,以便更准确的识别.例 ...

  3. python 汉字转拼音 实例

    python 汉字转拼音 首先是安装第三方库: $ pip install pinyin 使用的话: >>> import pinyin >>> print pin ...

  4. python汉字转换拼音

    python汉字转拼音实例如下: #encoding:utf-8 from pinyin import PinYin test=PinYin() test.load_word() print(test ...

  5. 强大的Android汉字转拼音开源库TinyPinyin

    我们日常开发中遇到汉字转拼音的机会比较少,但是在做联系人相关的时候就会常常遇到,比如微信联系列表,手机联系人列表,张三的首字母排序是Z,王五的首字母排序是W. 今天给大家介绍一个汉字转拼音的库Tiny ...

  6. 【推荐】iOS汉字转拼音第三方库

    PinYin4Objc是一个在git汉字转拼音的开源库,支持简体和繁体中文.效率POAPinyin等其他库要高,转换库也完整下面简单介绍 实现原理 使用unicode_to_hanyu_pinyin. ...

  7. python 汉字转拼音 获取首字母

    方式一.通过第三方库 import pinyin print(pinyin.get('汉字'))# 获取首字母,可将中文字符串转为中文列表 然后获取每一个汉字的拼音字符串取第一个然后拼接即可print ...

  8. python汉字转拼音代码_python3实现汉字转拼音

    一.简述 汉字转语音实现就分为两步,第一步将汉字转为拼音,第二步通过拼音调用相匹配的音频文件.下面是具体的开发实例教程 1.环境配置 开发环境:Win7 x64 Python版本:3.x 外置模块准备 ...

  9. python汉字转拼音函数_Hanlp汉字转拼音使用python调用详解

    1.hanlp简介 HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用.HanLP具备功能完善.性能高效.架构清晰.语料时新.可自定义的 ...

  10. python汉字转拼音代码_Python 汉字转换拼音代码

    # -*-coding:utf-8-*- # 返回汉字的拼音 def Return_pinyin(word): global reslist for line in reslist: if (word ...

最新文章

  1. mysql数据库引擎介绍
  2. 【408预推免复习】操作系统之文件管理
  3. js方法的声明与调用
  4. Java Web学习(七)HttpServletResponse(客户端响应)
  5. PHP工程师需要掌握的知识(转载)
  6. Weex 解决Print: Entry, :CFBundleIdentifier, Does Not Exist 错误方法
  7. long转string mybatis_Spring+Mybatis类型转换的问题,oracle数据库中有一个clob类型,怎样在查询以后转换为String类型?...
  8. 使用 jQuery Mobile 与 HTML5 开发 Web App (十) —— jQuery Mobile 默认配置与事件基础
  9. C#函数式编程之序列
  10. 手机卫星定位系统_真的可以通过手机号码,准确定位对方信息吗?
  11. Linux/Ubuntu 98版五笔安装
  12. matlab坐标轴为指数,matlab画图设置中,如何把坐标改称指数坐标以及修改范围?...
  13. Linux block multi-queue (blk-mq) 机制
  14. 2、异常值(outliers)检测:业务法、Z-score、3σ准则、箱线图
  15. HackTheBox 如何使用
  16. 微信小程token_微信小程序-携带Token无感知登陆的网络请求方案
  17. 2020 年百度之星·程序设计大赛 - 初赛一题解
  18. 001面向对象和面向过程
  19. REST是什么(转)
  20. Python 爬虫 之 Selenium 模拟打开操作浏览器爬取斗鱼全部视播相关信息,并json保存信息

热门文章

  1. centos安装aria2c_CentOS安装aria2+yaaw实现离线下载
  2. 芯片工程师常用英文黑话
  3. [家里蹲大学数学杂志]第033期稳态可压Navier-Stokes方程弱解的存在性
  4. 正态分布定义解释及案例介绍
  5. 虚拟计算机 win7,Win7电脑安装虚拟机的方法?
  6. php 验证码不正确,php验证码提示错误
  7. 大图书馆 #5 纳瓦尔宝典
  8. the JDBC Driver has been forcibly unregistered
  9. 10054: An existing connection was forcibly closed by the remote host
  10. Win11玩红警2黑屏的解决办法