学习NLP的第9天——基于HanLP实现的拼音转换
这里主要记录我在学习过程中整理的知识、调试的代码和心得理解,以供其他学习的朋友参考。
拼音转换是指将汉字转化为拼音的过程。
因为拼音转换涉及多音字的问题,所以仍然不能仅通过字转换,还需要按词转换。
下面我们使用HanLP的方法实现拼音转换。
from pyhanlp import *if __name__ == "__main__":Pinyin = JClass("com.hankcs.hanlp.dictionary.py.Pinyin")text = "重要的事情重复三遍"pinyin_list = HanLP.convertToPinyinList(text)print("原文:", text)print("拼音(数字音调):", pinyin_list)print("拼音(符号音调):", [pinyin.getPinyinWithToneMark() for pinyin in pinyin_list])print("拼音(无音调):", [pinyin.getPinyinWithoutTone() for pinyin in pinyin_list])print("声调:", [pinyin.getTone() for pinyin in pinyin_list])
运行结果
原文: 重要的事情重复三遍
拼音(数字音调): [zhong4, yao4, de5, shi4, qing2, chong2, fu4, san1, bian4]
拼音(符号音调): ['zhòng', 'yào', 'de', 'shì', 'qíng', 'chóng', 'fù', 'sān', 'biàn']
拼音(无音调): ['zhong', 'yao', 'de', 'shi', 'qing', 'chong', 'fu', 'san', 'bian']
声调: [4, 4, 5, 4, 2, 2, 4, 1, 4]
HanLP的实现方法首先是将文本分词,然后依据从词语到拼音的词典,以词为单位将文本转换为拼音。
因此,在转换过程中,优先按词语进行转换,在没有匹配到更长的词语的情况下, 多音字默认取第一个拼音。
学习参考文献:《自然语言处理入门》(何晗):2.10.3
学习NLP的第9天——基于HanLP实现的拼音转换相关推荐
- 系统学习NLP(三十一)--基于CNN句子分类
这篇文章翻译自A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sen ...
- 学习NLP的第20天——基于信息熵和互信息的新词提取实现
在对一个新鲜领域的文本进行分词之前,我们往往需要先对文本中包含的新词进行提取,并将新词制作为用户词典,提供给分词器,以提高分词器的准确率. 因为一个在新鲜领域中往往会包含很多我们意想不到的词语,比如神 ...
- 【NLP】一文了解基于深度学习的自然语言处理研究
目前,人工智能领域中最热的研究方向当属深度学习.深度学习的迅速发展受到了学术界和工业界的广泛关注,由于其拥有优秀的特征选择和提取能力,对包括机器翻译.目标识别.图像分割等在内的诸多任务中产生了越来越重 ...
- NLP入门之综述阅读-基于深度学习的自然语言处理研究综述
NLP入门-综述阅读-[基于深度学习的自然语言处理研究综述] 基于深度学习的自然语言处理研究综述 摘要 0 引言 1 深度学习概述 卷积神经网络 递归神经网络 2 NLP应用研究进展 3 预训练语言模 ...
- 转载 干货 | 陪伴我学习NLP、知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说很全面了)
https://blog.csdn.net/guleileo/article/details/81140179 干货 | 陪伴我学习NLP.知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说 ...
- 一文概述2017年深度学习NLP重大进展与趋势
本文,我将概述 2017 年深度学习技术在 NLP 领域带来的进步.可能会有遗漏,毕竟涵盖所有论文.框架和工具难度太大.我想和大家分享这一年我最喜欢的一些研究.我认为 2017 年是 NLP 领域的重 ...
- 【NLP】如何系统性的学习NLP,有三AI-NLP知识星球等你来
文/编辑 | 小Dream哥 星球开设的必要性 时间过的很快,转眼在有三AI开设NLP专栏已经2个月了. 是时候总结下了,我们的NLP专栏按计划更新了NLP中用的常用的机器学习模型,深度学习特征抽取器 ...
- 深度学习(1)---2017年深度学习NLP重大进展与趋势
深度学习(DL)架构和算法在图像识别.语音处理等领域实现了很大的进展.而深度学习在自然语言处理方面的表现最初并没有那么起眼,不过现在我们可以看到深度学习对 NLP 的贡献,在很多常见的 NLP 任务中 ...
- 系统学习NLP(十七)--文本相似度
转自:https://blog.csdn.net/qq_28031525/article/details/79596376 看原文吧,这里公式改不过来,烂 在自然语言处理(Natural Langua ...
最新文章
- redis list命令操作
- day16前端(Dom+Jquery)
- .net winform panel 不刷新_【扫盲篇】visual studio2019(C#/.NET)安装教程
- 在vscode中怎样debug调试go程序
- 2748: [HAOI2012]音量调节
- pythoncv2模块详细介绍_【Opencv】【Python】Python中opencv模块cv2一些函数用法及简介...
- 用FileInputStream和FileOutPutStream读写文件
- “熊猫烧香”源码启示录
- 爬取网易云音乐评论,延伸就能爬取网易云音乐的绝大多数数据
- 达沃时代的VNAS为NAS使用提供一种新可能
- 淘宝宝贝的标题,到底要如何优化,不妨进来看看,也许对你有帮助
- signal函数详解
- root的家目录和普通用户的家目录
- 论文阅读13:ENHANCING COLLABORATIVE FILTERING MUSIC RECOMMENDATION BY BALANCING EXPLORATION AND EXPLOITAT
- 艾默生流量计如何做好清洁排空工作
- 公司项目vue cli2升级到vue cli3
- 仿美团界面之day01
- Spring5框架(上) IOC
- Thymeleaf一篇就够了
- 微信内测“刷掌支付”,共享单车坐垫被插针;B站内测鬼畜编辑器!
热门文章
- McNemar test麦克尼马尔检验
- python qt gui与数据可视化编程 kindle_Kindle电子书 – D3.js数据可视化实战手册 azw3...
- Java电商系统商品详情页存储方案设计
- Mycat从入门到放弃
- python获取图像的长和宽_tensorflow之读取jpg图像长和宽实例
- Effective Modern C++[实践]->优先使用nullptr,而非0或NULL
- Hexo文件压缩:使用hexo-neat插件压缩页面静态资源
- 区块链游戏的抢滩之战
- 栖与谁邻解析:百度网盟操作要筛选哪种无效投放网站, 哪些网站要屏蔽
- html折叠div,纯CSS折叠/展开div