ython 中提供了汉字转拼音的库,名字叫做 PyPinyin,可以用于汉字注音、排序、检索等等场合,是基于 hotto/pinyin 这个库开发的,一些站点链接如下:

GitHub: https://github.com/mozillazg/python-pinyin

文档: https://pypinyin.readthedocs.io/zh_CN/master/

PyPi: https://pypi.org/project/pypinyin/

它有这么几个特性:

根据词组智能匹配最正确的拼音。
支持多音字。
简单的繁体支持, 注音支持。
支持多种不同拼音/注音风格。

是不是等不及了呢?那就让我们来了解一下它的用法吧!
安装
首先就是这个库的安装了,通过 pip 安装即可:
pip3 install pypinyin

安装完成之后导入一下这个库,如果不报错,那就说明安装成功了。

>>> import pypinyin

好,接下来我们看下它的具体功能。

基本拼音

首先我们进行一下基本的拼音转换,方法非常简单,直接调用 pinyin 方法即可:

from pypinyin import pinyinprint(pinyin('中心'))运行结果:
[['zhōng'],  ['xīn']]

可以看到结果会是一个二维的列表,每个元素都另外成了一个列表,其中包含了每个字的读音。
那么如果这个词是多音字咋办呢?比如 “朝阳”,它有两个读音,我们拿来试下:

from pypinyin import pinyinprint(pinyin('朝阳'))运行结果:
[['zhāo'],  ['yáng']]

好吧,它只给出来了一个读音,但是如果我们想要另外一种读音咋办呢?
其实很简单,只需添加 heteronym 参数并设置为 True 就好了,我们试下:

from pypinyin import pinyinprint(pinyin('朝阳',  heteronym=True))运行结果:
[['zhāo',  'cháo'],  ['yáng']]

OK 了,这下子就显示出来了两个读音了,而且我们也明白了结果为什么是一个二维列表,因为里面的一维的结果可能是多个,比如多音字的情况就是这样。

但这个多少解析起来有点麻烦,很多情况下我们是不需要管多音字的,我们只是用它来转换一下名字而已,而处理上面的二维数组又比较麻烦。

所以有没有一个方法直接给我们一个一维列表呢?有!
我们可以使用 lazy_pinyin 这个方法来生成,尝试一下:

from pypinyin import lazy_pinyinprint(lazy_pinyin('聪明的小兔子'))运行结果:
['cong',  'ming',  'de',  'xiao',  'tu',  'zi']

这时候观察到得到的是一个列表,并且不再包含音调了。
这里我们就有一个疑问了,为啥 pinyin 方法返回的结果默认是带音调的,而 lazy_pinyin 是不带的,这里面就涉及到一个风格转换的问题了。

风格转换

我们可以对结果进行一些风格转换,比如不带声调风格、标准声调风格、声调在拼音之后、声调在韵母之后、注音风格等等,比如我们想要声调放在拼音后面,可以这么来实现:

from pypinyin import lazy_pinyin,  Stylestyle  =  Style.TONE3print(lazy_pinyin('聪明的小兔子',  style=style))运行结果:
['cong1',  'ming2',  'de',  'xiao3',  'tu4',  'zi']

可以看到运行结果每个拼音后面就多了一个声调,这就是其中的一个风格,叫做 TONE3,其实还有很多风格,下面是我从源码里面找出来的定义:

#: 普通风格,不带声调。如: 中国 -> ``zhong guo``NORMAL  =  0#: 标准声调风格,拼音声调在韵母第一个字母上(默认风格)。如: 中国 -> ``zhōng guó``TONE  =  1#: 声调风格2,即拼音声调在各个韵母之后,用数字 [1-4] 进行表示。如: 中国 -> ``zho1ng guo2``TONE2  =  2#: 声调风格3,即拼音声调在各个拼音之后,用数字 [1-4] 进行表示。如: 中国 -> ``zhong1 guo2``TONE3  =  8#: 声母风格,只返回各个拼音的声母部分(注:有的拼音没有声母,详见 `#27`_)。如: 中国 -> ``zh g``INITIALS  =  3#: 首字母风格,只返回拼音的首字母部分。如: 中国 -> ``z g``FIRST_LETTER  =  4#: 韵母风格,只返回各个拼音的韵母部分,不带声调。如: 中国 -> ``ong uo``FINALS  =  5#: 标准韵母风格,带声调,声调在韵母第一个字母上。如:中国 -> ``ōng uó``FINALS_TONE  =  6#: 韵母风格2,带声调,声调在各个韵母之后,用数字 [1-4] 进行表示。如: 中国 -> ``o1ng uo2``FINALS_TONE2  =  7#: 韵母风格3,带声调,声调在各个拼音之后,用数字 [1-4] 进行表示。如: 中国 -> ``ong1 uo2``FINALS_TONE3  =  9#: 注音风格,带声调,阴平(第一声)不标。如: 中国 -> ``ㄓㄨㄥ ㄍㄨㄛˊ``BOPOMOFO  =  10#: 注音风格,仅首字母。如: 中国 -> ``ㄓ ㄍ``BOPOMOFO_FIRST  =  11#: 汉语拼音与俄语字母对照风格,声调在各个拼音之后,用数字 [1-4] 进行表示。如: 中国 -> ``чжун1 го2``CYRILLIC  =  12#: 汉语拼音与俄语字母对照风格,仅首字母。如: 中国 -> ``ч г``CYRILLIC_FIRST  =  13如果你依然在编程的世界里迷茫,
不知道自己的未来规划,
对python感兴趣,
这里推荐一下我的学习交流圈QQ群:895 797 751,
里面都是学习python的,

有了这些,我们就可以轻松地实现风格转换了。
好,再回到原来的问题,为什么 pinyin 的方法默认带声调,而 lazy_pinyin 方法不带声调,答案就是:它们二者使用的默认风格不同,我们看下它的函数定义就知道了:
pinyin 方法的定义如下:

def pinyin(hans,  style=Style.TONE,  heteronym=False,  errors='default',  strict=True)lazy_pinyin 方法的定义如下:
def lazy_pinyin(hans,  style=Style.NORMAL,  errors='default',  strict=True)

这下懂了吧,因为 pinyin 方法默认使用了 TONE 的风格,而 lazy_pinyin 方法默认使用了 NORMAL 的风格,所以就导致二者返回风格不同了。

好了,有了这两个函数的定义,我们再来研究下其他的参数,比如定义里面的 errors 和 strict 参数又怎么用呢?
错误处理

在这里我们先做一个测试,比如我们传入无法转拼音的字,比如:

from pypinyin import lazy_pinyinprint(lazy_pinyin('你好☆☆,我是xxx'))其中包含了星号两个,还有标点一个,另外还包含了一个 xxx 英文字符,结果会是什么呢?
['ni',  'hao',  '☆☆,',  'wo',  'shi',  'xxx']

可以看到结果中星号和英文字符都作为一个整体并原模原样返回了。

那么这种特殊字符可以单独进行处理吗?当然可以,这里就用到刚才提到的 errors 参数了。

errors 参数是有几种模式的:

下面是 errors 这个参数的源码实现逻辑:

def _handle_nopinyin_char(chars,  errors='default'):"""处理没有拼音的字符"""if  callable_check(errors):return  errors(chars)if  errors  ==  'default':return  charselif errors  ==  'ignore':return  Noneelif errors  ==  'replace':if  len(chars)  >  1:return  ''.join(text_type('%x'  %  ord(x))  for  x  in  chars)else:return  text_type('%x'  %  ord(chars))

当处理没有拼音的字符的时候,errors 的不同参数会有不同的处理结果,更详细的逻辑可以翻看源码。

好了,下面我们来尝试一下,比如我们想将不能转拼音的字符去掉,则可以这么设置:

from pypinyin import lazy_pinyinprint(lazy_pinyin('你好☆☆,我是xxx',  errors='ignore'))运行结果:
['ni',  'hao',  'wo',  'shi']

如果我们想要自定义处理,比如把 ☆ 转化为 ※ ,则可以这么设置:

print(lazy_pinyin('你好☆☆,我是xxx',  errors=lambda item:  ''.join(['※'  if  c  ==  '☆'  else  c  for  c  in  item])))运行结果:
['ni',  'hao',  '※※,',  'wo',  'shi',  'xxx']

如上便是一些相关异常处理的操作,我们可以随心所欲地处理自己想处理的字符了。

严格模式

最后再看下 strict 模式,这个参数用于控制处理声母和韵母时是否严格遵循《汉语拼音方案》 标准。

下面的一些说明来源于官方文档:

当 strict 参数为 True 时根据《汉语拼音方案》 的如下规则处理声母、在韵母相关风格下还原正确的韵母:

  • 21 个声母: b p m f d t n l g k h j q x zh ch sh r z c s ( y, w 不是声母 )

  • i行的韵母,前面没有声母的时候,写成yi(衣),ya(呀),ye(耶),yao(腰),you(忧),yan(烟), yin(因),yang(央),ying(英),yong(雍)。( y 不是声母 )

  • u行的韵母,前面没有声母的时候,写成wu(乌),wa(蛙),wo(窝),wai(歪),wei(威),wan(弯), wen(温),wang(汪),weng(翁)。( w 不是声母 )

  • ü行的韵母,前面没有声母的时候,写成yu(迂),yue(约),yuan(冤),yun(晕);ü上两点省略。 ( 韵母相关风格下还原正确的韵母 ü )

  • ü行的韵跟声母j,q,x拼的时候,写成ju(居),qu(区),xu(虚),ü上两点也省略; 但是跟声母n,l拼的时候,仍然写成nü(女),lü(吕)。( 韵母相关风格下还原正确的韵母 ü )

  • iou,uei,uen前面加声母的时候,写成iu,ui,un。例如niu(牛),gui(归),lun(论)。 ( 韵母相关风格下还原正确的韵母 iou,uei,uen )

当 strict 为 False 时就是不遵守上面的规则来处理声母和韵母, 比如: y , w 会被当做声母,yu(迂) 的韵母就是一般认为的 u 等。

具体差异可以查看源码中 tests/test_standard.py 中的对比结果测试用例。

自定义拼音

如果对库返回的结果不满意,我们还可以自定义自己的拼音库,这里用到的方法就有 load_single_dict 和 load_phrases_dict 方法了。

比如刚才我们看到 “朝阳” 两个字的发音默认返回的是 zhao yang,我们想默认返回 chao yang,那可以这么做:

from pypinyin import lazy_pinyin,  load_phrases_dictprint(lazy_pinyin('朝阳'))personalized_dict  =  {'朝阳':  [['cháo'],  ['yáng']]}load_phrases_dict(personalized_dict)print(lazy_pinyin('朝阳'))

这里我们自定义了一个词典,然后使用 load_phrases_dict 方法设置了一下就可以了。
运行结果:

['zhao',  'yang']['chao',  'yang']

这样就可以完成自定义的设置了。
在一些项目里面我们可以自定义很多拼音库,然后加载就可以了。
另外我们还可以注册样式实现自定义,比如将某个拼音前面加上 Emoji 表情,样例:

from pypinyin.style import registerfrom pypinyin import lazy_pinyin@register('kiss')def kiss(pinyin,  **kwargs):if  pinyin  ==  'me':return  f'{pinyin}'return  pinyinprint(lazy_pinyin('么么哒',  style='kiss'))运行结果:
me',  me',  'dá']如果你依然在编程的世界里迷茫,
不知道自己的未来规划,
对python感兴趣,
这里推荐一下我的学习交流圈QQ群:895 797 751,
里面都是学习python的,

这里我们调用 register 方法注册了一个样式 style,然后转换的时候指定即可,通过观察运行结果我们可以发现,这样我们就可以将 me 字的拼音前面加上
这个 Emoji 表情了。

Python 中拼音库 PyPinyin 的使用相关推荐

  1. python拼音怎么写-Python 中拼音库 PyPinyin 的用法

    [摘要] 最近碰到了一个问题,项目中很多文件都是接手过来的中文命名的一些素材,结果在部署的时候文件名全都乱码了,导致项目无法正常运行. 后来请教了一位大佬怎么解决文件名乱码的问题,他说这个需要正面解决 ...

  2. Python 中拼音库 PyPinyin 的用法,没错见名知意它就是用来翻译汉字的

    最近碰到了一个问题,项目中很多文件都是接手过来的中文命名的一些素材,结果在部署的时候文件名全都乱码了,导致项目无法正常运行. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基 ...

  3. Python 中拼音库 PyPinyin 的用法

    [摘要] 最近碰到了一个问题,项目中很多文件都是接手过来的中文命名的一些素材,结果在部署的时候文件名全都乱码了,导致项目无法正常运行. 后来请教了一位大佬怎么解决文件名乱码的问题,他说这个需要正面解决 ...

  4. Python中拼音库PyPinyin的使用

    PyPinyin库是一个支持中文转拼音输出的Python第三方库,它可以根据词组智能匹配最正确的拼音,并且支持多音字,简单的繁体, 注音,多种不同拼音/注音风格的转换. 目录 PyPinyin库的安装 ...

  5. Python中拼音库PyPinyin

    一.百度 pypinyin pypi 二.安装 pip install pypinyin 三.文档 GitHub - mozillazg/python-pinyin: 汉字转拼音(pypinyin) ...

  6. python怎么用拼音-Python利用拼音库PyPinyin获取汉字的拼音

    我们可以利用python的PyPinyin库来获取汉字的拼音,我们先来写一个简单的案例import pypinyin print(pypinyin.pinyin( "小宁博客")) ...

  7. Python 汉字转拼音库 pypinyin, 附:汉字拼音转换工具

    一.初衷: 一些开源软件的配置文件中识别区分的部分用英文,那么我们在批量生成配置文件的时候,可以从CMDB导入汉字(idc_name), 然后将它转换成拼音,再或者拼接上IP地址,以便更准确的识别.例 ...

  8. python tkinter库、添加gui界面_使用Python中tkinter库简单gui界面制作及打包成exe的操作方法(二)...

    使用Python中tkinter库简单gui界面制作及打包成exe的操作方法(二),创建一个,界面,布局,文件,路径 使用Python中tkinter库简单gui界面制作及打包成exe的操作方法(二) ...

  9. python opencv创建图像_使用Python中OpenCV库创建一幅图片的RGB通道图片

    我们知道,在使用PhotoShop进行图片的抠取.创建和存储选区.存储图像的色彩资料等复杂操作时,经常会用到一个功能,那就是"RGB"通道,它能从三原色角度对一幅图片进行精准处理. ...

  10. python中requests库的用途-数据爬虫(三):python中requests库使用方法详解

    有些网站访问时必须带有浏览器等信息,如果不传入headers就会报错,如下 使用 Requests 模块,上传文件也是如此简单的,文件的类型会自动进行处理: 因为12306有一个错误证书,我们那它的网 ...

最新文章

  1. 2020职场AI技能排行榜:TensorFlow热度飙升,Python最火,市场部也在学
  2. Nginx配置跨域请求 Access-Control-Allow-Origin *
  3. 中国独角兽企业总榜发布:百亿超级独角兽达13家(附榜单)
  4. 用python绘制柱状图标题-如何用Python绘制3D柱形图
  5. 函数调用栈 剖析+图解
  6. css中会计算的属性,2017年12月聚合文章--calc() ---一个会计算的css属性 | 码友网
  7. leetcode add Two Numbers
  8. urllib.request.urlretrieve()函数
  9. 电商巨头Shopify 两名员工被指窃取客户交易详情
  10. obs中音频和视频的同步
  11. Java Android客户端开发
  12. 算法知识点——(1)特征工程
  13. vue组件object_vue使用PDFObject的方法
  14. GOOGLE:单一模式背后
  15. 会员管理小程序实战开发教程(六)-会员查询功能
  16. 一文搞懂K-means聚类算法
  17. ASEMI整流模块MSAD110-16图片,MSAD110-16体积
  18. 通过余弦相似度找物品之间的联系
  19. 国内外云计算平台大比拼
  20. python自学看不懂-为什么自学Python看不进去?

热门文章

  1. 关于游戏,能戒就戒吧
  2. enc易能变频_ENC易能变频器没反应快修诚信好
  3. poj2816-红与黑-C语言-递归算法入门
  4. 中级php工程师笔试,PHP工程师笔试题目及行测题型示例
  5. 思科防火墙解析(ASA)
  6. 商务周刊封面:别了,摩托罗拉
  7. 词向量与词意-Glo Ve
  8. [c++] 什么是平凡类型,标准布局类型,POD类型,聚合体
  9. uniapp打包之后首页白屏
  10. FPGA学习-PS2接口