这里主要记录我在学习过程中整理的知识、调试的代码和心得理解,以供其他学习的朋友参考。

拼音转换是指将汉字转化为拼音的过程。

因为拼音转换涉及多音字的问题,所以仍然不能仅通过字转换,还需要按词转换。

下面我们使用HanLP的方法实现拼音转换。

from pyhanlp import *if __name__ == "__main__":Pinyin = JClass("com.hankcs.hanlp.dictionary.py.Pinyin")text = "重要的事情重复三遍"pinyin_list = HanLP.convertToPinyinList(text)print("原文:", text)print("拼音(数字音调):", pinyin_list)print("拼音(符号音调):", [pinyin.getPinyinWithToneMark() for pinyin in pinyin_list])print("拼音(无音调):", [pinyin.getPinyinWithoutTone() for pinyin in pinyin_list])print("声调:", [pinyin.getTone() for pinyin in pinyin_list])

运行结果

原文: 重要的事情重复三遍
拼音(数字音调): [zhong4, yao4, de5, shi4, qing2, chong2, fu4, san1, bian4]
拼音(符号音调): ['zhòng', 'yào', 'de', 'shì', 'qíng', 'chóng', 'fù', 'sān', 'biàn']
拼音(无音调): ['zhong', 'yao', 'de', 'shi', 'qing', 'chong', 'fu', 'san', 'bian']
声调: [4, 4, 5, 4, 2, 2, 4, 1, 4]

HanLP的实现方法首先是将文本分词,然后依据从词语到拼音的词典,以词为单位将文本转换为拼音。

因此,在转换过程中,优先按词语进行转换,在没有匹配到更长的词语的情况下, 多音字默认取第一个拼音。

学习参考文献:《自然语言处理入门》(何晗):2.10.3

学习NLP的第9天——基于HanLP实现的拼音转换相关推荐

  1. 系统学习NLP(三十一)--基于CNN句子分类

    这篇文章翻译自A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sen ...

  2. 学习NLP的第20天——基于信息熵和互信息的新词提取实现

    在对一个新鲜领域的文本进行分词之前,我们往往需要先对文本中包含的新词进行提取,并将新词制作为用户词典,提供给分词器,以提高分词器的准确率. 因为一个在新鲜领域中往往会包含很多我们意想不到的词语,比如神 ...

  3. 【NLP】一文了解基于深度学习的自然语言处理研究

    目前,人工智能领域中最热的研究方向当属深度学习.深度学习的迅速发展受到了学术界和工业界的广泛关注,由于其拥有优秀的特征选择和提取能力,对包括机器翻译.目标识别.图像分割等在内的诸多任务中产生了越来越重 ...

  4. NLP入门之综述阅读-基于深度学习的自然语言处理研究综述

    NLP入门-综述阅读-[基于深度学习的自然语言处理研究综述] 基于深度学习的自然语言处理研究综述 摘要 0 引言 1 深度学习概述 卷积神经网络 递归神经网络 2 NLP应用研究进展 3 预训练语言模 ...

  5. 转载 干货 | 陪伴我学习NLP、知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说很全面了)

    https://blog.csdn.net/guleileo/article/details/81140179 干货 | 陪伴我学习NLP.知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说 ...

  6. 一文概述2017年深度学习NLP重大进展与趋势

    本文,我将概述 2017 年深度学习技术在 NLP 领域带来的进步.可能会有遗漏,毕竟涵盖所有论文.框架和工具难度太大.我想和大家分享这一年我最喜欢的一些研究.我认为 2017 年是 NLP 领域的重 ...

  7. 【NLP】如何系统性的学习NLP,有三AI-NLP知识星球等你来

    文/编辑 | 小Dream哥 星球开设的必要性 时间过的很快,转眼在有三AI开设NLP专栏已经2个月了. 是时候总结下了,我们的NLP专栏按计划更新了NLP中用的常用的机器学习模型,深度学习特征抽取器 ...

  8. 深度学习(1)---2017年深度学习NLP重大进展与趋势

    深度学习(DL)架构和算法在图像识别.语音处理等领域实现了很大的进展.而深度学习在自然语言处理方面的表现最初并没有那么起眼,不过现在我们可以看到深度学习对 NLP 的贡献,在很多常见的 NLP 任务中 ...

  9. 系统学习NLP(十七)--文本相似度

    转自:https://blog.csdn.net/qq_28031525/article/details/79596376 看原文吧,这里公式改不过来,烂 在自然语言处理(Natural Langua ...

最新文章

  1. redis list命令操作
  2. day16前端(Dom+Jquery)
  3. .net winform panel 不刷新_【扫盲篇】visual studio2019(C#/.NET)安装教程
  4. 在vscode中怎样debug调试go程序
  5. 2748: [HAOI2012]音量调节
  6. pythoncv2模块详细介绍_【Opencv】【Python】Python中opencv模块cv2一些函数用法及简介...
  7. 用FileInputStream和FileOutPutStream读写文件
  8. “熊猫烧香”源码启示录
  9. 爬取网易云音乐评论,延伸就能爬取网易云音乐的绝大多数数据
  10. 达沃时代的VNAS为NAS使用提供一种新可能
  11. 淘宝宝贝的标题,到底要如何优化,不妨进来看看,也许对你有帮助
  12. signal函数详解
  13. root的家目录和普通用户的家目录
  14. 论文阅读13:ENHANCING COLLABORATIVE FILTERING MUSIC RECOMMENDATION BY BALANCING EXPLORATION AND EXPLOITAT
  15. 艾默生流量计如何做好清洁排空工作
  16. 公司项目vue cli2升级到vue cli3
  17. 仿美团界面之day01
  18. Spring5框架(上) IOC
  19. Thymeleaf一篇就够了
  20. 微信内测“刷掌支付”,共享单车坐垫被插针;B站内测鬼畜编辑器!

热门文章

  1. McNemar test麦克尼马尔检验
  2. python qt gui与数据可视化编程 kindle_Kindle电子书 – D3.js数据可视化实战手册 azw3...
  3. Java电商系统商品详情页存储方案设计
  4. Mycat从入门到放弃
  5. python获取图像的长和宽_tensorflow之读取jpg图像长和宽实例
  6. Effective Modern C++[实践]->优先使用nullptr,而非0或NULL
  7. Hexo文件压缩:使用hexo-neat插件压缩页面静态资源
  8. 区块链游戏的抢滩之战
  9. 栖与谁邻解析:百度网盟操作要筛选哪种无效投放网站, 哪些网站要屏蔽
  10. html折叠div,纯CSS折叠/展开div