一、应用概述

最近做一个项目,发现很多场景,把汉字转换成拼音,然后进行深度学习分类,能够取得非常不错的效果,在做内容识别,特别是涉及到同音字的时候,转换成拼音就显得特别重要。比如垃圾广告识别:公众号、工仲号、躬总号,公众號、微信、威信、维伈.........,pypinyin是我用的一个比较好用的包是

给大家分享下,当然,在其他很多场景也是可以使用的,排序、检索等等场合。

二、有关文档

GitHub: https://github.com/mozillazg/python-pinyin

文   档:https://pypinyin.readthedocs.io/zh_CN/master/

PyPi  :https://pypi.org/project/pypinyin/

三、关于安装

#可以使用 pip 进行安装
pip install pypinyin#easy_install 安装
easy_install pypinyin#源码安装
python setup.py install

四、核心函数

1、pypinyin.pinyin

语法:pypinyin.pinyin(hans, style=Style.TONE,  heteronym=False, errors='default', strict=True)

功能:将汉字转换为拼音,返回汉字的拼音列表。

参数:

  • hans (unicode 字符串或字符串列表) – 汉字字符串( '你好吗' )或列表( ['你好', '吗'] ). 可以使用自己喜爱的分词模块对字符串进行分词处理, 只需将经过分词处理的字符串列表传进来就可以了。

  • style – 指定拼音风格,默认是 TONE 风格。更多拼音风格详见 Style

  • errors –指定如何处理没有拼音的字符。详见 处理不包含拼音的字符

  • heteronym – 是否启用多音字

  • strict – 是否严格遵照《汉语拼音方案》来处理声母和韵母,详见 strict 参数的影响

from pypinyin import pinyin, Style
import pypinyin
#普通模式
pinyin('中心')
[['zhōng'], ['xīn']]
pinyin('公众号')
[['gōng'], ['zhòng'], ['hào']]
# 启用多音字模式
pinyin('中心', heteronym=True)
[['zhōng', 'zhòng'], ['xīn']]
# 设置拼音风格
pinyin('中心', style=Style.NORMAL ) #普通风格
[['zhong'], ['xin']]pinyin('中心', style=Style.FIRST_LETTER)
[['z'], ['x']]pinyin('中心', style=Style.TONE2)
[['zho1ng'], ['xi1n']]pinyin('中心', style=Style.TONE3)
[['zhong1'], ['xin1']]pinyin('中心', style=Style.CYRILLIC)#汉语拼音与俄语字母对照风格
[['чжун1'], ['синь1']]

2、pypinyin.lazy_pinyin

语法:pypinyin.lazy_pinyin(hans, style=Style, errors='default', strict=True)

功能:将汉字转换为拼音,返回不包含多音字结果的拼音列表,与 pinyin() 的区别是返回的拼音是个字符串, 并且每个字只包含一个读音

参数:

  • hans (unicode or list) – 汉字

  • style – 指定拼音风格,默认是 NORMAL 风格。更多拼音风格详见 Style

  • errors – 指定如何处理没有拼音的字符,详情请参考 pinyin()

  • strict – 是否严格遵照《汉语拼音方案》来处理声母和韵母,详见 strict 参数的影响

from pypinyin import lazy_pinyin, Style
import pypinyinlazy_pinyin('中心')
['zhong', 'xin']
lazy_pinyin('微信公众号')
['wei', 'xin', 'gong', 'zhong', 'hao']lazy_pinyin('中心', style=Style.TONE)
['zhōng', 'xīn']
lazy_pinyin('中心', style=Style.FIRST_LETTER)
['z', 'x']
lazy_pinyin('中心', style=Style.TONE2)
['zho1ng', 'xi1n']
lazy_pinyin('中心', style=Style.CYRILLIC)
['чжун1', 'синь1']

3、pypinyin.slug

功能:将汉字转换为拼音,然后生成 slug 字符串,简单说就是自定义分隔符

语法:pypinyin.slug(hans , style=Style, heteronym=False, separator='-', errors='default', strict=True)

  • hans (unicode or list) – 汉字

  • style – 指定拼音风格,默认是 NORMAL 风格。更多拼音风格详见 Style

  • heteronym – 是否启用多音字

  • separator – 两个拼音间的分隔符/连接符

  • errors – 指定如何处理没有拼音的字符,详情请参考 pinyin()

  • strict – 是否严格遵照《汉语拼音方案》来处理声母和韵母,详见 strict 参数的影响

import pypinyin
from pypinyin import Style
pypinyin.slug('我是中国人')
'wo-shi-zhong-guo-ren'
pypinyin.slug('我是中国人', separator=' ')
'wo shi zhong guo ren'pypinyin.slug('中国人2020雄起', separator=' ')#遇到数字等非汉字不注音
'zhong guo ren 2020 xiong qi'pypinyin.slug('中国人2020雄起', style=Style.FIRST_LETTER)
'z-g-r-2020-x-q'pypinyin.slug('我是中国人', style=Style.CYRILLIC)
'во3-ши4-чжун1-го2-жэнь'

 

4、 pypinyin.load_single_dict

功能:载入用户自定义的单字拼音库

语法: pypinyin.load_single_dict(pinyin_dict, style='default')

参数:

  • pinyin_dict (dict) – 单字拼音库。比如: {0x963F: u"ā,ē"}

  • style – pinyin_dict 参数值的拼音库风格. 支持 ‘default’, ‘tone2’

5、 pypinyin.load_phrases_dict

功能:载入用户自定义的词语拼音库

语法: pypinyin.load_phrases_dict(phrases_dict, style='default')

参数:

  • phrases_dict (dict) – 词语拼音库。比如: {u"阿爸": [[u"ā"], [u"bà"]]}

  • style – phrases_dict 参数值的拼音库风格. 支持 ‘default’, ‘tone2’

五、一个案例

假如需要找出一个垃圾评价的相似样本,用汉语相似性远远小于拼音,这个时候,拼音就能发挥很大的优势。

当然转换成拼音后,把每个音节当一个词,进行深度学习,效果也是非常好的。

S1 = '加公众号:小优惠,领券,便宜购买'
S2 = '伽工仲号:小优惠,伶绻,便宜购买'#汉语相似
simi_1 = len(set(S1).interp(set(S2)))/len(set(S1).union(set(S2)))#相似不懂的可以看我前面集合的文章
simi_1
0.5
#转换成拼音后显示
S1 = lazy_pinyin(S1)
S2 = lazy_pinyin(S2)
simi_2 = len(set(S1).interp(set(S2)))/len(set(S1).union(set(S2)))
simi_2
0.875

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑AI基础下载(pdf更新到25集)机器学习的数学基础专辑获取一折本站知识星球优惠券,复制链接直接打开:https://t.zsxq.com/yFQV7am本站qq群1003271085,加入微信群请扫码喜欢文章,点个在看

【Python入门】一个有意思还有用的Python包-汉字转换拼音相关推荐

  1. python入门视频教程推荐-python入门学习哪个书比较好(python视频教程知乎)

    自学python的学习路线是什么?推荐一些python学习资源 第一段 初级,掌握Python的语法和常用库的使用 这里首先推雪锋在网上的书籍,这是Python2.7的,这本书适合于重头开始一直读完, ...

  2. 自学python买什么书比较好-python入门学习哪个书比较好(python视频教程知乎)

    自学python的学习路线是什么?推荐一些python学习资源 第一段 初级,掌握Python的语法和常用库的使用 这里首先推雪锋在网上的书籍,这是Python2.7的,这本书适合于重头开始一直读完, ...

  3. Python入门(第二节):Python编译器安装

    一 前言 上一篇Python入门(第一节):Python版本如何选和安装末尾我放了一个投票 大家选择的是vscode,我们就来一篇vscode安装使用讲解 其实vscode和pycharm一个是插件下 ...

  4. python入门指南pdf-跟老齐学Python+从入门到精通 PDF 下载

    相关截图: 资料简介: 本书是面向编程零基础读者的Python入门教程,内容涵盖了Python的基础知识和初步应用.以比较轻快的风格,向零基础的学习者介绍一门时下比较流行.并且用途比较广泛的编程语言, ...

  5. 视频教程-Python入门-系列游戏开发/太空阻击-Python

    Python入门-系列游戏开发/太空阻击 20年软件项目开发管理经验 工信部人才交流中心特聘专家讲师 日本U-CAN在线教育特聘主任讲师 国家十二·五规划软件工程教材作者(书:清华大学出版社出版) 中 ...

  6. (Python入门)学习笔记二,Python学习路线图

    (Python入门)学习笔记二,Python学习路线图 千里之行始于足下,谋定而后动,冰冻三尺非一日之寒.之所以说这三句话,就是对于下面整理的路线图,即不让自己感觉路途的遥远而感到达到巅峰神界的遥遥无 ...

  7. 手把手教你如何用Python制作一个电子相册?末附python教程

    这里简单介绍一下python制作电子相册的过程,主要用到tkinter和pillow这2个库,tkinter用于窗口显示照片,pillow用来处理照片,照片切换分为2种方式,一种是自动切换(每隔5秒) ...

  8. 小学生python入门-周边 | 小学生都开始学Python了,你还在等什么?

    原标题:周边 | 小学生都开始学Python了,你还在等什么? 关注"BRC求职" 超越Java,Python成功上位! 被微软拥抱,集万千宠爱与一身! 登顶编程界头牌,Pytho ...

  9. python入门教材论坛_GitHub - aisuhua/codeparkshare: Python初学者(零基础学习Python、Python入门)书籍、视频、资料、社区推荐...

    PythonShare Python初学者(零基础学习Python.Python入门)书籍.视频.资料.社区推荐 本文 主要 针对 零基础 想学习Python者.本文本文由@史江歌(shijiangg ...

最新文章

  1. 【Android View绘制之旅】Draw过程
  2. windows server 2008 系列讲座三部曲--在线讲座预告
  3. leetcode79. 单词搜索 网格地图搜索+回溯经典写法啦
  4. 17 PP配置-生产计划-总体维护工厂参数
  5. python中ndarray对象实例化_Python —— 实例化ndarray对象
  6. FreeRTOS 任务计数信号量,任务二值信号量,任务事件标志组,任务消息邮箱
  7. python发音模块-python 利用pyttsx3文字转语音过程详解
  8. springboot web项目_SpringBoot 源码解析 (一):SpringBoot核心原理入门
  9. import jpype报错 解决办法
  10. caxa发生文件读写异常_文件和异常
  11. 摄像头码流怎么设置_监控交换机怎么选?千兆/百兆/核心/PoE/光纤交换机选型指南...
  12. Android 视频播放器
  13. 路径穿越(Path Traversal)详解
  14. linux 时钟分频,浅析AD9522时钟分频电路原理
  15. python plt.imshow函数显示图像颜色失真
  16. 拖拽删除元素、拖拽排序、拖拽预览图片和拖拽移动元素
  17. java.sql.SQLException: Access denied for user 'pc'@'localhost' (using passw
  18. Anuglar8集成高德地图
  19. iPhone的解锁、越狱、激活、固件等等是什么意思,有什么分别?
  20. 【Python】逆向爬虫-----模拟微信公众平台登录(MD5)

热门文章

  1. [19/05/26-星期日] JavaScript_ 基本语法_运算符
  2. C# 空合并运算符 ??
  3. 043 hive数据同步到mysql
  4. SQL SERVER 存储过程执行带输出参数的SQL语句拼接
  5. 【2040】反向输出序列
  6. Inherits、CodeFile、CodeBehind
  7. Ubuntu 开启telnet、ftp服务
  8. 光流 | 基于Horn-Schunck HS变分光流算法改进
  9. notepad++是什么?用notepad++来编辑c语言代码
  10. c rsa java私钥_RSA,JAVA私钥加密,C#公钥解密