Python以其清晰简洁的语法、易用和可扩展性以及丰富庞大的库深受广大开发者喜爱。其内置的非常强大的机器学习代码库和数学库,使Python理所当然成为自然语言处理的开发利器。

那么使用Python进行自然语言处理,要是不知道这8个工具就真的Out了。

NLTK

NLTK是使用Python处理语言数据的领先平台。它为像WordNet这样的词汇资源提供了简便易用的界面。它还具有为文本分类(classification)、文本标记(tokenization)、词干提取(stemming)、词性标记(tagging)、语义分析(parsing)和语义推理(semantic reasoning)准备的文本处理库。

Pattern

Pattern具有用于词性标注(part-of-speech taggers)、n-gram搜索、情感分析和WordNet的一系列工具。它还支持矢量空间建模、聚类分析以及支持向量机。

TextBlob

TextBlob是处理文本数据的一个Python库。它为深入挖掘常规自然语言处理提供简单易用的API,例如词性标注(part-of-speech tagging)、名词短语提取(noun phrase extraction)、情感分析、文本分类、机器翻译等等。

Gensim

Gensim是一个用于主题建模、文档索引以及使用大规模语料数据的相似性检索。相比于RAM,它能处理更多的输入数据。作者称它是“根据纯文本进行非监督性建模最健壮、最有效的、最让人放心的软件”。

PyNLPl

PyNLPl:Python Natural Language Processing Library(发音为:pineapple)是一个用于自然语言处理的Python库。它由一系列的相互独立或相互松散独立的模块构成,用于处理常规或不太常规的NLP任务。PyNLPl可用于n-gram计算、频率列表和分布、语言建模。除此之外,还有更加复杂的数据模型,例如优先级队列;还有搜索引擎,例如波束搜索。

spaCy

spaCy是一个商业化开源软件,是使用Python和Cython进行工业级自然语言处理的软件。它是目前最快的、水平最高的自然语言处理工具。

Polyglot

Polyglot是一个支持海量多语言的自然语言处理工具。它支持多达165种语言的文本标记,196种语言的语言检测,40种语言的命名实体识别,16种语言的词性标注,136种语言的情感分析,137种语言的字根嵌入,135种语言的形态分析以及69种语言的音译。

MontyLingua

MontyLingua是一个免费的、常识丰富的、端对端的英语自然语言理解软件。用户只需要将原始英文文本输入MontyLingua,就能输出文本的语义解释。该软件完美适用于信息提取、需求处理以及问答。从给定的英语文本,它能提取主语/动词/形容词对象元组、名词短语和动词短语,并提取人的名字、地点、事件、日期和时间,以及其他语义信息。

作者:董志南

来源:NLP自然语言处理

转载自:http://mp.weixin.qq.com/s?__biz=MzAwNDc0MTUxMw==&mid=2649638920&idx=1&sn=1b62850ea3dec2401a6a3f61e946de38&scene=0#rd

转载于:https://www.cnblogs.com/1394htw/p/5482241.html

用Python做自然语言处理必知的八个工具【转载】相关推荐

  1. 我用python做了个测词汇量的小工具

    大家好,作为爱学习的自己,我特意用python做了个测词汇量的小工具,让自己每天都能够快乐的学习! 1.页面分析 这次我们采用的是扇贝网来进行词汇量测试,如图: 我们还是老规矩,首先按F12打开开发者 ...

  2. Web开发必知的八种隔离级别

    Web开发必知的八种隔离级别 转自:http://www.infoq.com/cn/articles/eight-isolation-levels ACID性质是数据库理论中的奠基石,它定义了一个理论 ...

  3. 用python制作二维码_用python做一个可视化生成二维码的工具

    用python做一个可视化生成二维码的工具 环境 pip install gooey pip install MyQR 源代码 from gooey import GooeyParser,Gooey ...

  4. neo4j 机器学习_21个必知的机器学习开源工具,涵盖5大领域

    作者 | 张璐瑶.李林虹 来源 | 读芯术 本文将介绍21个你可能没使用过的机器学习开源工具. · 每个开源工具都为数据科学家处理数据库提供了不同角度. · 本文将重点介绍五种机器学习的工具--面向非 ...

  5. 21个必知的机器学习开源工具,涵盖5大领域

    全文共3744字,预计学习时长7分钟 · 本文将介绍21个你可能没使用过的机器学习开源工具. · 每个开源工具都为数据科学家处理数据库提供了不同角度. · 本文将重点介绍五种机器学习的工具--面向非程 ...

  6. 【Python】9个必知的Python操作文件/文件夹方法

    近几年随着Python的热度不断上涨,人们渐渐使用这门编程语言来进行一些自动化操作,以节省重复劳动带来的效率低下,那么必定会涉及到对文件系统的操作,包括文件的增.删.改.查等等,今天小编就来介绍一下如 ...

  7. 开启Python学习之路 必知必会的知识!

    文章目录 一.认识Python 1. python3简介 2. python语言的特点 3. Python应用方向 二.开发环境搭建 1. Anaconda介绍 2. Pycharm介绍 3. 下载A ...

  8. 【Python】matplotlib可视化必知必会富文本绘制方法

    ❝ 本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes ❞ 1 简介 长久以来,在使用matplotli ...

  9. arcgis怎么做poi_新手必知:使用ArcGIS能做些什么

    无论是在单机环境,还是在联机环境中使用GIS,用户都可以使用ArcGIS的三个桌面应用程序ArcCatalog,ArcMap和ArcToolbox来完成工作. ArcCatalog可用于空间数据库内容 ...

最新文章

  1. pip包管理工具-install执行流程简单查看
  2. LeetCode OJ:Remove Element(移除元素)
  3. 浅谈百度新一代query-ad 推荐引擎如何提升广告收益率
  4. 雷达成像技术_毫米波立体成像雷达技术研究
  5. [云炬创业管理笔记]第九章为创业成败而准备测试2
  6. 图片导入ppt后模糊_PPT设计,找图也是一种能力
  7. 中断、轮询、事件驱动、消息驱动、数据流驱动(Flow-Driven)?
  8. linux怎么测试一个脚本,一个Linux中用于监控的简易shell脚本
  9. 第17章分布式爬虫-17-1 分布式系统简介
  10. Poj 1166 The Clocks(bfs)
  11. C语言 谭浩强第五版 课后习题解答
  12. 分享一个好看的个人主页源码
  13. iPad最新型笔刷,足足五种分类,几百款
  14. 通过注册表文件进行配置WSUS自动更新
  15. scratch编程钟表
  16. 推荐9个能让你看一天的网站
  17. 养老保险个人帐户说明[南京]
  18. lay和lied_高考英语词汇辨析:lie, lay, lain, laid, lying等用法
  19. seata源码解析:TM RM 客户端的初始化过程
  20. 天梯赛(cccc)总结(写于4.1号)

热门文章

  1. dubbo使用遇到的问题
  2. 利用Query判断checkbox是否选中的写法!(
  3. 无法设置共享文件夹的解决方法收集
  4. C# HttpRequest基础连接已经关闭: 接收时发生意外错误
  5. 数组的扩展-搜集自无忧脚本
  6. LCS2005应用扩展-我的ATiPer
  7. FetchAI Case Study
  8. 徐教授的对于商业模式创新的讲座!十分有用!
  9. 一种新的在线学习的方法:能够克服单人多任务学习的困难!
  10. 【转】计算机中浮点数的表示