8种Python文本处理工具集
文本处理一般包括词性标注,句法分析,关键词提取,文本分类,情感分析等等,这是针对中文的,如果是对于英文来说,只需要基本的tokenize。本文为大家提供了以下这些工具包。
1.Jieba
【结巴中文分词】做最好的 Python 中文分词组件
其功能包括支持三种分词模式(精确模式、全模式、搜索引擎模式),支持繁体分词,支持自定义词典等。
代码主页:https://github.com/fxsjy/jieba
2.NLTK
【NLTK】一个构建Python程序以使用人类语言数据的领先平台,被称为“使用Python进行教学和计算语言学工作的绝佳工具”,以及“用自然语言进行游戏的神奇图书馆”。
官方主页:http://www.nltk.org/
代码主页:https://github.com/nltk/nltk
3.TextBlob
【TextBlob】是一个用于处理文本数据的Python(2和3)库。它为潜入常见的自然语言处理(NLP)任务提供了一个简单的API,例如词性标注,名词短语提取,情感分析,分类,翻译等。
官方主页:http://textblob.readthedocs.org/en/dev/
代码主页:https://github.com/sloria/textblob
4.MBSP for Python
【MBSP】是一个文本分析系统,基于CLiPS和ILK开发的基于TiMBL和MBT内存的学习应用程序。它提供了用于标记化和句子分裂,词性标注,分块,词形还原,关系查找和介词短语附件的工具。
官方主页:http://www.clips.ua.ac.be/pages/MBSP
5.Gensim
【Gensim】是一个免费的Python库
可扩展的统计语义
分析纯文本文档的语义结构
检索语义相似的文档
官方主页:http://radimrehurek.com/gensim/index.html
代码主页:https://github.com/piskvorky/gensim
6.langid.py
【langid.py 】是一个独立的语言标识(LangID)工具。接受过97种语言的预训练(ISO 639-1代码),培训数据来自5个不同的来源:JRC-Acquis、ClueWeb 09、维基百科、路透社RCV2和Debian i18n。
代码主页:https://github.com/saffsd/langid.py
7. xTAS
【 xTAS】是基于Celery的分布式文本分析套件。部分xtas使用GPL许可软件,例如Stanford NLP工具,以及可能产生额外限制的数据集,检查文档中的各个功能。
代码主页:https://github.com/NLeSC/xtas
8.Pattern
【Pattern】是Python编程语言的Web挖掘模块。它具有数据挖掘工具(谷歌,Twitter和维基百科API,网络爬虫,HTML DOM解析器),自然语言处理(词性标注,n-gram搜索,情感分析,WordNet),机器学习(矢量)空间模型,聚类,SVM),网络分析和<canvas>可视化。
官方主页:http://www.clips.ua.ac.be/pattern
8种Python文本处理工具集相关推荐
- python文本分析库_8种Python文本处理工具集
文本处理一般包括词性标注,句法分析,关键词提取,文本分类,情感分析等等,这是针对中文的,如果是对于英文来说,只需要基本的tokenize.本文为大家提供了以下这些工具包. 1.Jieba [结巴中文分 ...
- python在线工具-6 种 Python 数据可视化工具
原标题:6 种 Python 数据可视化工具 英文:Chris Moffitt,编译:伯乐在线/李加庆 简介 在 Python 中,将数据可视化有多种选择,正是因为这种多样性,何时选用何种方案才变得极 ...
- python数据可视化的特点_6 种 Python 数据可视化工具
原标题:6 种 Python 数据可视化工具 英文:Chris Moffitt,编译:伯乐在线/李加庆 简介 在 Python 中,将数据可视化有多种选择,正是因为这种多样性,何时选用何种方案才变得极 ...
- Python文本处理工具——TextRank
背景 TextRank是用与从文本中提取关键词的算法,它采用了PageRank算法,原始的论文在这里.Github地址. 这个工具使用POS( part-of-speech tagging : 词性标 ...
- Python【数学工具集项目】专栏——介绍(作者:CSDN用户(TDTX、philo42))【2021-07-09】
Python[数学工具集项目]专栏--介绍 1.项目创作者 2.创作介绍 3.内容介绍 本项目两名创作者为: CSDN用户(TDTX),TDTX主页 CSDN用户(philo42),philo42主页 ...
- Python 实用代码工具集目录
Python 实用代码工具集目录 1.批量重命名文件 2.视频转图片 3.图片转视频 4.图像灰度处理.图像合并(hstack) 1.批量重命名文件 链接1: 批量重命名文件 2.视频转图片 链接2: ...
- shedskin--- 一种python性能优化工具
shedskin http://code.google.com/p/shedskin/ 虽说python的性能在脚本语言中还算杰出,但是当程序中出现for,while循环或者函数递归调用的情况,其性能 ...
- python转c工具shedskin_shedskin— 一种python性能优化工具 | 学步园
虽说python的性能在脚本语言中还算杰出,但是当程序中出现for,while循环或者函数递归调用的情况,其性能就下降的非常快. 比如,用递归方法计算fibonacci(33) ,C语言只要几毫秒,但 ...
- 【转】vs平台工具集介绍,vc6~vs2019各IDE对应的工具集版本
转自:vs平台工具集介绍以及安装 - jack_Meng - 博客园 一.什么是平台工具集: 平台工具集其实是MSBuild 其目录所在C:\Program Files (x86)\MSBuild\M ...
- shell脚本三大文本处理工具
[-]目录 一简介 二grep命令 格式选项 grep与正则表达式结合 egrep和fgrep 三sed命令 sed命令基本用法 sed文本定位 sed基本编辑命令 sed高级编辑命令 四awk命令 ...
最新文章
- MySQL中的联合查询
- 使用gitlab创建项目和添加成员,并提交本地代码至gitlab远程仓库
- 【Cocos2d-X(2.x) 游戏开发系列之三】最新版本cocos2d-2.0-x-2.0.2使用资源加载策略
- python ftp模块_python中的FTP文件模块
- Vue--findIndex方法的使用原理
- Python助力期末
- 前端学习(1925)vue之电商管理系统电商系统之通过一层for循环渲染
- C++ 程序员如何迎接 Windows 10 的到来
- opencv4.4.0函数手册_【文档更新】发布100ask_imx6ull用户手册V2.0和全新烧写工具
- linux的定制和发布(二)
- 【已解决】电脑更新系统之后,键盘失灵了怎么办?
- 几种主流热修复方案分析
- 在线教育知识付费源码,视频教程学习系统源码,网课小程序源码
- 微信服务号、订阅号和企业号的区别(运营和开发两个角度)
- mysql实验一:图书管理系统之建库建表
- PC软件-实用工具 True Launch Bar
- 微信小程序图片放大预览效果的实现,轮播图点击放大预览
- 057.(2.26)遇到人生低谷期该怎么度过?
- Win Server2003常见问题及解决然方案(转)
- 视频号直播刚改版后怎么开通企业微信