文本处理一般包括词性标注,句法分析,关键词提取,文本分类,情感分析等等,这是针对中文的,如果是对于英文来说,只需要基本的tokenize。本文为大家提供了以下这些工具包。

1.Jieba

【结巴中文分词】做最好的 Python 中文分词组件
其功能包括支持三种分词模式(精确模式、全模式、搜索引擎模式),支持繁体分词,支持自定义词典等。

代码主页:https://github.com/fxsjy/jieba

2.NLTK

【NLTK】一个构建Python程序以使用人类语言数据的领先平台,被称为“使用Python进行教学和计算语言学工作的绝佳工具”,以及“用自然语言进行游戏的神奇图书馆”。

官方主页:http://www.nltk.org/
代码主页:https://github.com/nltk/nltk

3.TextBlob

【TextBlob】是一个用于处理文本数据的Python(2和3)库。它为潜入常见的自然语言处理(NLP)任务提供了一个简单的API,例如词性标注,名词短语提取,情感分析,分类,翻译等。

官方主页:http://textblob.readthedocs.org/en/dev/
代码主页:https://github.com/sloria/textblob

4.MBSP for Python

【MBSP】是一个文本分析系统,基于CLiPS和ILK开发的基于TiMBL和MBT内存的学习应用程序。它提供了用于标记化和句子分裂,词性标注,分块,词形还原,关系查找和介词短语附件的工具。

官方主页:http://www.clips.ua.ac.be/pages/MBSP

5.Gensim

【Gensim】是一个免费的Python库

  • 可扩展的统计语义

  • 分析纯文本文档的语义结构

  • 检索语义相似的文档

官方主页:http://radimrehurek.com/gensim/index.html

代码主页:https://github.com/piskvorky/gensim

6.langid.py 

【langid.py 】是一个独立的语言标识(LangID)工具。接受过97种语言的预训练(ISO 639-1代码),培训数据来自5个不同的来源:JRC-Acquis、ClueWeb 09、维基百科、路透社RCV2和Debian i18n。

代码主页:https://github.com/saffsd/langid.py

7. xTAS

【 xTAS】是基于Celery的分布式文本分析套件。部分xtas使用GPL许可软件,例如Stanford NLP工具,以及可能产生额外限制的数据集,检查文档中的各个功能。

代码主页:https://github.com/NLeSC/xtas

8.Pattern

【Pattern】是Python编程语言的Web挖掘模块。它具有数据挖掘工具(谷歌,Twitter和维基百科API,网络爬虫,HTML DOM解析器),自然语言处理(词性标注,n-gram搜索,情感分析,WordNet),机器学习(矢量)空间模型,聚类,SVM),网络分析和<canvas>可视化。

官方主页:http://www.clips.ua.ac.be/pattern

8种Python文本处理工具集相关推荐

  1. python文本分析库_8种Python文本处理工具集

    文本处理一般包括词性标注,句法分析,关键词提取,文本分类,情感分析等等,这是针对中文的,如果是对于英文来说,只需要基本的tokenize.本文为大家提供了以下这些工具包. 1.Jieba [结巴中文分 ...

  2. python在线工具-6 种 Python 数据可视化工具

    原标题:6 种 Python 数据可视化工具 英文:Chris Moffitt,编译:伯乐在线/李加庆 简介 在 Python 中,将数据可视化有多种选择,正是因为这种多样性,何时选用何种方案才变得极 ...

  3. python数据可视化的特点_6 种 Python 数据可视化工具

    原标题:6 种 Python 数据可视化工具 英文:Chris Moffitt,编译:伯乐在线/李加庆 简介 在 Python 中,将数据可视化有多种选择,正是因为这种多样性,何时选用何种方案才变得极 ...

  4. Python文本处理工具——TextRank

    背景 TextRank是用与从文本中提取关键词的算法,它采用了PageRank算法,原始的论文在这里.Github地址. 这个工具使用POS( part-of-speech tagging : 词性标 ...

  5. Python【数学工具集项目】专栏——介绍(作者:CSDN用户(TDTX、philo42))【2021-07-09】

    Python[数学工具集项目]专栏--介绍 1.项目创作者 2.创作介绍 3.内容介绍 本项目两名创作者为: CSDN用户(TDTX),TDTX主页 CSDN用户(philo42),philo42主页 ...

  6. Python 实用代码工具集目录

    Python 实用代码工具集目录 1.批量重命名文件 2.视频转图片 3.图片转视频 4.图像灰度处理.图像合并(hstack) 1.批量重命名文件 链接1: 批量重命名文件 2.视频转图片 链接2: ...

  7. shedskin--- 一种python性能优化工具

    shedskin http://code.google.com/p/shedskin/ 虽说python的性能在脚本语言中还算杰出,但是当程序中出现for,while循环或者函数递归调用的情况,其性能 ...

  8. python转c工具shedskin_shedskin— 一种python性能优化工具 | 学步园

    虽说python的性能在脚本语言中还算杰出,但是当程序中出现for,while循环或者函数递归调用的情况,其性能就下降的非常快. 比如,用递归方法计算fibonacci(33) ,C语言只要几毫秒,但 ...

  9. 【转】vs平台工具集介绍,vc6~vs2019各IDE对应的工具集版本

    转自:vs平台工具集介绍以及安装 - jack_Meng - 博客园 一.什么是平台工具集: 平台工具集其实是MSBuild 其目录所在C:\Program Files (x86)\MSBuild\M ...

  10. shell脚本三大文本处理工具

    [-]目录 一简介 二grep命令 格式选项 grep与正则表达式结合 egrep和fgrep 三sed命令 sed命令基本用法 sed文本定位 sed基本编辑命令 sed高级编辑命令 四awk命令 ...

最新文章

  1. MySQL中的联合查询
  2. 使用gitlab创建项目和添加成员,并提交本地代码至gitlab远程仓库
  3. 【Cocos2d-X(2.x) 游戏开发系列之三】最新版本cocos2d-2.0-x-2.0.2使用资源加载策略
  4. python ftp模块_python中的FTP文件模块
  5. Vue--findIndex方法的使用原理
  6. Python助力期末
  7. 前端学习(1925)vue之电商管理系统电商系统之通过一层for循环渲染
  8. C++ 程序员如何迎接 Windows 10 的到来
  9. opencv4.4.0函数手册_【文档更新】发布100ask_imx6ull用户手册V2.0和全新烧写工具
  10. linux的定制和发布(二)
  11. 【已解决】电脑更新系统之后,键盘失灵了怎么办?
  12. 几种主流热修复方案分析
  13. 在线教育知识付费源码,视频教程学习系统源码,网课小程序源码
  14. 微信服务号、订阅号和企业号的区别(运营和开发两个角度)
  15. mysql实验一:图书管理系统之建库建表
  16. PC软件-实用工具 True Launch Bar
  17. 微信小程序图片放大预览效果的实现,轮播图点击放大预览
  18. 057.(2.26)遇到人生低谷期该怎么度过?
  19. Win Server2003常见问题及解决然方案(转)
  20. 视频号直播刚改版后怎么开通企业微信

热门文章

  1. 产品经理常用的分析模型方法
  2. cdrx4自动排版步骤_如何在CorelDRAW软件排版CDR怎么快速排版技巧?
  3. 数字图像处理:时域、频域和空间域
  4. ShuffleNet v2
  5. 北京交通大学2020计算机考研科目,2020北京交通大学软件工程考研初试科目.pdf
  6. 企业信用评分卡模型概述
  7. 关于DBSCAN聚类算法
  8. php美颜滤镜,美颜滤镜的虚幻不如一支玻尿酸来的真实
  9. iOS AirPlay 投屏调研
  10. 计算机视觉——图像检索与识别