zhon库的简介

Zhon是一个Python库,它提供了中文文本处理中常用的常量。

包括常用常量:

中日韩文字和部首
中文标点符号
汉语句子规则表达模式
拼音元音、辅音、小写、大写和标点符号
拼音音节、单词和句子规则表达模式
诸印文字
竹音音节规则表达模式
CC-CEDICT字符

zhon库的安装

pip install zhon

如果有pycharm直接搜索安装

zhon库的使用方法

1、在字符串中查找CJK字符、验证拼音音节、单词或句子:

在字符串中查找CJK字符:>>> re.findall('[%s]' % zhon.hanzi.characters, 'I broke a plate: 我打破了一个盘子.')
['我', '打', '破', '了', '一', '个', '盘', '子']验证拼音音节、单词或句子:
>>> re.findall(zhon.pinyin.syllable, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I)
['Yuàn', 'zi', 'lǐ', 'tíng', 'zhe', 'yí', 'liàng', 'chē']>>> re.findall(zhon.pinyin.word, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I)
['Yuànzi', 'lǐ', 'tíngzhe', 'yí', 'liàng', 'chē']>>> re.findall(zhon.pinyin.sentence, 'Yuànzi lǐ tíngzhe yí liàng chē.', re.I)
['Yuànzi lǐ tíngzhe yí liàng chē.']

中文的处理


text_chinese = '自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。'

去除标点符号

我们适应zhon.hanzi.punctuation来调用中文符号。

import re
from zhon.hanzi import punctuation
#去除标点符号
chi_nopuc = re.sub("[{}]+".format(punctuation), "", text_chinese)

中文分词

jieba分词支持不同的分词方式,本文中使用的是默认模式

chi_token = jieba.lcut(chi_nopuc)

去除停用词

在这里,我们得先有一个停用词的列表。这个停用词没有一个标准化的指标,我自己的停用词下载:

停用词下载链接
提取码:bs5s

#首先我们需要引入停用词
f = open(r"C:\Users\Mr.Reliable\Desktop\中文停用词.txt",'r',encoding = 'UTF-8')
stopwords_n = f.readlines()
f.close()
#清洗停用词数据
stopwords = [sw.strip().replace('\n','') for sw in stopwords_n]
final = []
for chi in chi_token:if chi not in stopwords:final.append(chi)
print(final)

输出的结果

学习笔记——zhon库的简介、安装、使用方法之详细攻略相关推荐

  1. Py之glob: glob库文件名模式匹配+返回所有匹配的文件路径列表库的简介、使用方法之详细攻略

    Py之glob: glob库文件名模式匹配+返回所有匹配的文件路径列表库的简介.使用方法之详细攻略 目录 glob库的简介 glob库的使用方法 1.单个字符通配符:用问号(?)匹配任何单个的字符.

  2. Python语言学习:Python常用自带库(imageio、pickle)简介、使用方法之详细攻略

    Python语言学习:Python常用自带库(imageio.pickle)简介.使用方法之详细攻略 目录 imageio简介及其常见使用方法 pickle简介及其常见使用方法 简介 使用方法 简介及 ...

  3. Python:numpy库中的一些函数简介、使用方法之详细攻略

    Python:numpy库中的一些函数简介.使用方法之详细攻略 目录 numpy库中的一些函数简介.使用方法 1.np.concatenate() 1.1.函数案例 1.2.函数用法 numpy库中的 ...

  4. Python编程语言学习:包导入和模块搜索路径简介、使用方法之详细攻略

    Python编程语言学习:包导入和模块搜索路径简介.使用方法之详细攻略 目录 包导入和模块搜索路径简介 1.Pyhon搜索模块路径的机制 2.自定义配置搜索路径

  5. ML之sklearn:sklearn.linear_mode中的LogisticRegression函数的简介、使用方法之详细攻略

    ML之sklearn:sklearn.linear_mode中的LogisticRegression函数的简介.使用方法之详细攻略 目录 sklearn.linear_mode中的LogisticRe ...

  6. sklearn之XGBModel:XGBModel之feature_importances_、plot_importance的简介、使用方法之详细攻略

    sklearn之XGBModel:XGBModel之feature_importances_.plot_importance的简介.使用方法之详细攻略 目录 feature_importances_ ...

  7. sklearn:sklearn.preprocessing.StandardScaler函数的fit_transform、transform、inverse_transform简介、使用方法之详细攻略

    sklearn:sklearn.preprocessing.StandardScaler函数的fit_transform.transform.inverse_transform简介.使用方法之详细攻略 ...

  8. sklearn:sklearn.GridSearchCV函数的简介、使用方法之详细攻略

    sklearn:sklearn.GridSearchCVl函数的简介.使用方法之详细攻略 目录 sklearn.GridSearchCV函数的简介 1.参数说明 2.功能代码 sklearn.Grid ...

  9. CV之FRec之ME/LF:人脸识别中常用的模型评估指标/损失函数(Triplet Loss、Center Loss)简介、使用方法之详细攻略

    CV之FRec之ME/LF:人脸识别中常用的模型评估指标/损失函数(Triplet Loss.Center Loss)简介.使用方法之详细攻略 目录 T1.Triplet Loss 1.英文原文解释 ...

  10. Computer:互联网开放平台项目知识补充之开发-运维-网络-网关等术语(DMZ、负载均衡、F5、Nginx、容器)的简介、使用方法之详细攻略

    Computer:互联网开放平台项目知识补充之开发-运维-网络-网关等术语(DMZ.负载均衡.F5.Nginx.容器)的简介.使用方法之详细攻略 目录 DMZ(隔离区)的简介及其使用方法 1.DMZ区 ...

最新文章

  1. spring mvc教程_Spring MVC教程
  2. Hbase1.2数据导入2.0
  3. linux 串口信息记到日志,[linux学习笔记]之一:ubuntu ch340调试备忘
  4. LoadRunner性能测试-Std. Deviation标准差
  5. python-元组数据类型-0222
  6. MVVM(Knockout.js)的新尝试:多个Page,一个ViewModel
  7. python 超参数_OpenCV python sklearn随机超参数搜索的实现
  8. vs中实现声音录制并保存到指定文件_别人直播怎么录制视频?这三种方法你可以不知道...
  9. default在php定义什么,default(T)的含义
  10. 服务器kvm切换器维修,KVM多电脑切换器常见故障排查及处理方法
  11. EKL构造点和线的基本用法
  12. Xcode免证书导出ipa文件
  13. java 坦克世界源代码教程_译文教程:坦克世界游戏制作技术分享
  14. 使用mp4v2将H264+AAC合成mp4文件
  15. 验证码----svg-captcha
  16. 【附源码】计算机毕业设计java智慧校园防疫管理平台设计与实现
  17. 中科院高分区盘点:1区新刊,影响因子即将突破7分(含IEEE)
  18. 为何软考办官方从来不公布标准答案以及通过率?
  19. 高等数学:第九章 重积分(2)三重积分的概念、应用,利用柱面坐标和球面坐标计算三重积分
  20. 动态网页 —— 逆向分析法 + 案例

热门文章

  1. 2017年美国大学生数学建模竞赛C题优秀论文解读
  2. 深度解读:美国自动驾驶技术及测试示范区现状
  3. SSD 4K未对齐,且启动AHCI蓝屏解决办法
  4. 投篮机投篮有技巧吗_电玩城投篮机玩法技巧
  5. 安卓期末大作业——手账本
  6. 全志Tina系统调频调压
  7. 浅谈网站设计美工的重要性
  8. 幸福的种子—亲子共读图画书
  9. 计算机二级word(学习笔记)——段落+样式
  10. 谷粒商城笔记+踩坑(9)——上架商品spu到ES索引库