NLP入门(七)中文预处理之繁简体转换及获取拼音
在日常的中文NLP中,经常会涉及到中文的繁简体转换以及拼音的标注等问题,本文将介绍这两个方面的实现。
首先是中文的繁简体转换,不需要使用额外的Python模块,至需要以下两个Python代码文件即可:
- langconv.py 地址: https://raw.githubusercontent.com/skydark/nstools/master/zhtools/langconv.py
- zh_wiki.py 地址:https://raw.githubusercontent.com/skydark/nstools/master/zhtools/zh_wiki.py
示例代码如下(将代码文件与langconv.py与zh_wiki.py放在同一目录下):
from langconv import *# 转换繁体到简体
def cht_2_chs(line):line = Converter('zh-hans').convert(line)line.encode('utf-8')return lineline_cht= '''
台北市長柯文哲今在臉書開直播,先向網友報告自己3月16日至24日要出訪美國東部4城市,接著他無預警宣布,
2月23日要先出訪以色列,預計停留4至5天。雖他強調台北市、以色列已在資安方面有所交流,也可到當地城市交流、
參觀產業創新等內容,但柯也說「也是去看看一個小國在這麼惡劣環境,howtosurvive,他的祕訣是什麼?」這番話,
也被解讀,頗有更上層樓、直指總統大位的思維。
'''line_cht = line_cht.replace('\n', '')
ret_chs = cht_2_chs(line_cht)
print(ret_chs)# 转换简体到繁体
def chs_2_cht(sentence):sentence = Converter('zh-hant').convert(sentence)return sentenceline_chs = '忧郁的台湾乌龟'
line_cht = chs_2_cht(line_chs)
print(line_cht)
输出的结果如下:
台北市长柯文哲今在脸书开直播,先向网友报告自己3月16日至24日要出访美国东部4城市,接着他无预警宣布,2月23日要先出访以色列,预计停留4至5天。虽他强调台北市、以色列已在资安方面有所交流,也可到当地城市交流、参观产业创新等内容,但柯也说「也是去看看一个小国在这么恶劣环境,howtosurvive,他的祕诀是什么?」这番话,也被解读,颇有更上层楼、直指总统大位的思维。
憂郁的臺灣烏龜
接着是获取中文汉字的拼音,这方面的Python模块有xpinyin, pypinyin等。本文以xpinyin为例,展示如何获取汉字的拼音。示例代码如下:
from xpinyin import Pinyinp = Pinyin()# 默认分隔符为-
print(p.get_pinyin("上海"))# 显示声调
print(p.get_pinyin("上海", tone_marks='marks'))
print(p.get_pinyin("上海", tone_marks='numbers'))# 去掉分隔符
print(p.get_pinyin("上海", ''))
# 设为分隔符为空格
print(p.get_pinyin("上海", ' '))# 获取拼音首字母
print(p.get_initial("上"))
print(p.get_initials("上海"))
print(p.get_initials("上海", ''))
print(p.get_initials("上海", ' '))
输出结果如下:
shang-hai
shàng-hǎi
shang4-hai3
shanghai
shang hai
S
S-H
SH
S H
本次分享到此结束,感谢大家阅读~
注意:本人现已开通微信公众号: Python爬虫与算法(微信号为:easy_web_scrape), 欢迎大家关注哦~~
NLP入门(七)中文预处理之繁简体转换及获取拼音相关推荐
- NLP入门(七)中文预处理之繁简体转换及获取拼音 1
在日常的中文NLP中,经常会涉及到中文的繁简体转换以及拼音的标注等问题,本文将介绍这两个方面的实现. 首先是中文的繁简体转换,不需要使用额外的Python模块,至需要以下两个Python代码文 ...
- 开源项目在线化 中文繁简体转换/敏感词/拼音/分词/汉字相似度/markdown 目录
前言 以前在 github 上自己开源了一些项目.碍于技术与精力,大部分项目都是 java 实现的. 这对于非 java 开发者而言很不友好,对于不会编程的用户更加不友好. 为了让更多的人可以使用到这 ...
- java 中文繁简体转换工具 opencc4j 使用介绍 1.8.0
Opencc4j Opencc4j 支持中文繁简体转换,考虑到词组级别. 在线体验 Features 特点 严格区分「一简对多繁」和「一简对多异」. 完全兼容异体字,可以实现动态替换. 严格审校一简对 ...
- 在线中文繁简体转换工具
在线中文繁简体转换工具 在线中文繁简体转换工具 本工具可以将中文进行繁简体转换,所有数据均在客户端处理,不会上传到服务器,请放心使用. https://tooltt.com/fanjianti/
- 转:java 中文繁简体转换工具 opencc4j
转:https://blog.csdn.net/Trojin_Inhv/article/details/100557152 对于中文的繁简体转换是一种很常见的需求. 但是很多工具类都是简单的做个映射. ...
- java utf8 简繁转换 类库,java 中文繁简体转换工具 opencc4j
创作缘由 对于中文的繁简体转换是一种很常见的需求. 但是很多工具类都是简单的做个映射.(使用map,集合,properties)等. 存在一个严重的问题:特殊词组 的转换可能存在问题. OpenCC ...
- es拼音分词 大帅哥_SpringBoot集成Elasticsearch 进阶,实现中文、拼音分词,繁简体转换...
Elasticsearch 分词 分词分为读时分词和写时分词. 读时分词发生在用户查询时,ES 会即时地对用户输入的关键词进行分词,分词结果只存在内存中,当查询结束时,分词结果也会随即消失.而写时分词 ...
- NLP入门之综述阅读-自然语言处理发展及应用综述
NLP入门-综述阅读-[自然语言处理发展及应用综述] 1 前言 2 自然语言处理的发展 3 自然语言处理的研究方法和内容 3.1 自然语言处理的研究方法 3.2 自然语言处理基础研究 3.2.1 词法 ...
- NLP入门之综述阅读-基于深度学习的自然语言处理研究综述
NLP入门-综述阅读-[基于深度学习的自然语言处理研究综述] 基于深度学习的自然语言处理研究综述 摘要 0 引言 1 深度学习概述 卷积神经网络 递归神经网络 2 NLP应用研究进展 3 预训练语言模 ...
- 网络编程懒人入门(七):深入浅出,全面理解HTTP协议
转自即时通讯网:http://www.52im.net/ 本文引用了自简书作者"涤生_Woo"的文章,内容有删减,感谢原作者的分享. 1.前言 HTTP(全称超文本传输协议,英文全 ...
最新文章
- linux c 查看 结构体 宏 函数 关键字定义
- 动态加载javascript和css
- MySQL(10)数据库实现高可用架构之MHA
- [Jarvis OJ - PWN]——[XMAN]level3_x64
- tcp与ip协议的区别
- python-日志模块-logging
- 2459: 爱你多少年呢
- Spring数据库事务典型错误用法剖析
- JavaScript框架从入门到精通
- Android手机获取外网ip(by 星空武哥)
- mysql 表继承_如何在数据库中表示继承?
- Drools决策表的使用
- 健康低辐射,信号全覆盖,飞鱼星i-Home覆盖方案上市
- FFMPEG使用 frei0r 给视频添加马赛克效果
- OpenGL: gluLookAt函数的含义
- mysql中的unix_timestamp函数
- 使用Python创建excel文件成功后报错打不开
- python可视化 Task04 文字图例尽眉目
- 塞瓦定理与梅涅劳斯定理
- L1-044 稳赢(简单c语言写法)