在日常的中文NLP中,经常会涉及到中文的繁简体转换以及拼音的标注等问题,本文将介绍这两个方面的实现。
  首先是中文的繁简体转换,不需要使用额外的Python模块,至需要以下两个Python代码文件即可:

  • langconv.py 地址: https://raw.githubusercontent.com/skydark/nstools/master/zhtools/langconv.py
  • zh_wiki.py 地址:https://raw.githubusercontent.com/skydark/nstools/master/zhtools/zh_wiki.py

  示例代码如下(将代码文件与langconv.py与zh_wiki.py放在同一目录下):

from langconv import *# 转换繁体到简体
def cht_2_chs(line):line = Converter('zh-hans').convert(line)line.encode('utf-8')return lineline_cht= '''
台北市長柯文哲今在臉書開直播,先向網友報告自己3月16日至24日要出訪美國東部4城市,接著他無預警宣布,
2月23日要先出訪以色列,預計停留4至5天。雖他強調台北市、以色列已在資安方面有所交流,也可到當地城市交流、
參觀產業創新等內容,但柯也說「也是去看看一個小國在這麼惡劣環境,howtosurvive,他的祕訣是什麼?」這番話,
也被解讀,頗有更上層樓、直指總統大位的思維。
'''line_cht = line_cht.replace('\n', '')
ret_chs = cht_2_chs(line_cht)
print(ret_chs)# 转换简体到繁体
def chs_2_cht(sentence):sentence = Converter('zh-hant').convert(sentence)return sentenceline_chs = '忧郁的台湾乌龟'
line_cht = chs_2_cht(line_chs)
print(line_cht)

输出的结果如下:

台北市长柯文哲今在脸书开直播,先向网友报告自己3月16日至24日要出访美国东部4城市,接着他无预警宣布,2月23日要先出访以色列,预计停留4至5天。虽他强调台北市、以色列已在资安方面有所交流,也可到当地城市交流、参观产业创新等内容,但柯也说「也是去看看一个小国在这么恶劣环境,howtosurvive,他的祕诀是什么?」这番话,也被解读,颇有更上层楼、直指总统大位的思维。
憂郁的臺灣烏龜

  接着是获取中文汉字的拼音,这方面的Python模块有xpinyin, pypinyin等。本文以xpinyin为例,展示如何获取汉字的拼音。示例代码如下:

from xpinyin import Pinyinp = Pinyin()# 默认分隔符为-
print(p.get_pinyin("上海"))# 显示声调
print(p.get_pinyin("上海", tone_marks='marks'))
print(p.get_pinyin("上海", tone_marks='numbers'))# 去掉分隔符
print(p.get_pinyin("上海", ''))
# 设为分隔符为空格
print(p.get_pinyin("上海", ' '))# 获取拼音首字母
print(p.get_initial("上"))
print(p.get_initials("上海"))
print(p.get_initials("上海", ''))
print(p.get_initials("上海", ' '))

输出结果如下:

shang-hai
shàng-hǎi
shang4-hai3
shanghai
shang hai
S
S-H
SH
S H

  本次分享到此结束,感谢大家阅读~

注意:本人现已开通微信公众号: Python爬虫与算法(微信号为:easy_web_scrape), 欢迎大家关注哦~~

NLP入门(七)中文预处理之繁简体转换及获取拼音相关推荐

  1. NLP入门(七)中文预处理之繁简体转换及获取拼音 1

      在日常的中文NLP中,经常会涉及到中文的繁简体转换以及拼音的标注等问题,本文将介绍这两个方面的实现.   首先是中文的繁简体转换,不需要使用额外的Python模块,至需要以下两个Python代码文 ...

  2. 开源项目在线化 中文繁简体转换/敏感词/拼音/分词/汉字相似度/markdown 目录

    前言 以前在 github 上自己开源了一些项目.碍于技术与精力,大部分项目都是 java 实现的. 这对于非 java 开发者而言很不友好,对于不会编程的用户更加不友好. 为了让更多的人可以使用到这 ...

  3. java 中文繁简体转换工具 opencc4j 使用介绍 1.8.0

    Opencc4j Opencc4j 支持中文繁简体转换,考虑到词组级别. 在线体验 Features 特点 严格区分「一简对多繁」和「一简对多异」. 完全兼容异体字,可以实现动态替换. 严格审校一简对 ...

  4. 在线中文繁简体转换工具

    在线中文繁简体转换工具 在线中文繁简体转换工具 本工具可以将中文进行繁简体转换,所有数据均在客户端处理,不会上传到服务器,请放心使用. https://tooltt.com/fanjianti/

  5. 转:java 中文繁简体转换工具 opencc4j

    转:https://blog.csdn.net/Trojin_Inhv/article/details/100557152 对于中文的繁简体转换是一种很常见的需求. 但是很多工具类都是简单的做个映射. ...

  6. java utf8 简繁转换 类库,java 中文繁简体转换工具 opencc4j

    创作缘由 对于中文的繁简体转换是一种很常见的需求. 但是很多工具类都是简单的做个映射.(使用map,集合,properties)等. 存在一个严重的问题:特殊词组 的转换可能存在问题. OpenCC ...

  7. es拼音分词 大帅哥_SpringBoot集成Elasticsearch 进阶,实现中文、拼音分词,繁简体转换...

    Elasticsearch 分词 分词分为读时分词和写时分词. 读时分词发生在用户查询时,ES 会即时地对用户输入的关键词进行分词,分词结果只存在内存中,当查询结束时,分词结果也会随即消失.而写时分词 ...

  8. NLP入门之综述阅读-自然语言处理发展及应用综述

    NLP入门-综述阅读-[自然语言处理发展及应用综述] 1 前言 2 自然语言处理的发展 3 自然语言处理的研究方法和内容 3.1 自然语言处理的研究方法 3.2 自然语言处理基础研究 3.2.1 词法 ...

  9. NLP入门之综述阅读-基于深度学习的自然语言处理研究综述

    NLP入门-综述阅读-[基于深度学习的自然语言处理研究综述] 基于深度学习的自然语言处理研究综述 摘要 0 引言 1 深度学习概述 卷积神经网络 递归神经网络 2 NLP应用研究进展 3 预训练语言模 ...

  10. 网络编程懒人入门(七):深入浅出,全面理解HTTP协议

    转自即时通讯网:http://www.52im.net/ 本文引用了自简书作者"涤生_Woo"的文章,内容有删减,感谢原作者的分享. 1.前言 HTTP(全称超文本传输协议,英文全 ...

最新文章

  1. linux c 查看 结构体 宏 函数 关键字定义
  2. 动态加载javascript和css
  3. MySQL(10)数据库实现高可用架构之MHA
  4. [Jarvis OJ - PWN]——[XMAN]level3_x64
  5. tcp与ip协议的区别
  6. python-日志模块-logging
  7. 2459: 爱你多少年呢
  8. Spring数据库事务典型错误用法剖析
  9. JavaScript框架从入门到精通
  10. Android手机获取外网ip(by 星空武哥)
  11. mysql 表继承_如何在数据库中表示继承?
  12. Drools决策表的使用
  13. 健康低辐射,信号全覆盖,飞鱼星i-Home覆盖方案上市
  14. FFMPEG使用 frei0r 给视频添加马赛克效果
  15. OpenGL: gluLookAt函数的含义
  16. mysql中的unix_timestamp函数
  17. 使用Python创建excel文件成功后报错打不开
  18. python可视化 Task04 文字图例尽眉目
  19. 塞瓦定理与梅涅劳斯定理
  20. L1-044 稳赢(简单c语言写法)

热门文章

  1. C# 文件上传 制作水印
  2. 抖音小程序开发 唤起收银台支付(可以选择支付宝APP支付或微信H5支付)
  3. 多实例安装mysql数据库
  4. 当前默认服务器维护尚未完成,更新公告 | 7月11日早8点停服维护
  5. 3GPP使用方法与协议下载
  6. Java JUI打字小游戏项目
  7. 安装Ubuntu Core系统
  8. 微信小程序video自定义播放与暂停按钮
  9. FP6296升压QC和PD协议充电器
  10. Safari怎么开发扩展(插件)