此处只简单汇总一下各种文本工具名目,他们的详细使用参见具体帖子。本文主要参考<8种目前Python使用率最高的文本处理工具>一文0、SnowNLP包 用于中文文本的处理

1.Jieba

2.NLTK

3.TextBlob

4.MBSP for Python

5.Gensim

6.langid.py

7. xTAS

8.Pattern

0、SnowNLP包 用于中文文本的处理

中文文本情感分析示例:

from snownlp import SnowNLP

text = u"我今天很快乐。我今天很愤怒。"

# 字母u文本编码格式是Unicode,

s = SnowNLP(text)

for sentence in s.sentences: #断句

print(sentence)

s1 = SnowNLP(s.sentences[0]) # 此处不能写s1 = s.sentences[0],需转化为SnowNLP格式才能下一步语句

s1.sentiments

text2 = '这个东西很垃圾'

s2 = SnowNLP(text2) #输出0.21406279508712744

# SnowNLP和textblob的计分方法不同。SnowNLP的情感分析取值,

# 表达的是“这句话代表正面情感的概率”

1.Jieba

【结巴中文分词】做最好的 Python 中文分词组件

其功能包括支持三种分词模式(精确模式、全模式、搜索引擎模式),支持繁体分词,支持自定义词典等。

2.NLTK

【NLTK】一个构建Python程序以使用人类语言数据的领先平台,被称为“使用Python进行教学和计算语言学工作的绝佳工具”,以及“用自然语言进行游戏的神奇图书馆”。

3.TextBlob 用于英文文本的处理

【TextBlob】是一个用于处理文本数据的Python(2和3)库。它为潜入常见的自然语言处理(NLP)任务提供了一个简单的API,例如词性标注,名词短语提取,情感分析,分类,翻译等。

英文文本情感分析示例:

from textblob import TextBlob

text = "I am happy today. I feel sad today."

blob = TextBlob(text)

blob.sentences

# 用于断句 输出:[Sentence("I am happy today."), Sentence("I feel sad today.")]

blob.sentences[0].sentiment

# 输出:Sentiment(polarity=0.8, subjectivity=1.0)

# 情感极性0.8,主观性1.0。说明一下,情感极性的变化范围是[-1, 1],-1代表完全负面,1代表完全正面。

blob.sentences[1].sentiment

# 输出:Sentiment(polarity=-0.5, subjectivity=1.0)

blob.sentiment

# 用于判断整句情感极性。输出Sentiment(polarity=0.15000000000000002, subjectivity=1.0)

4.MBSP for Python

【MBSP】是一个文本分析系统,基于CLiPS和ILK开发的基于TiMBL和MBT内存的学习应用程序。它提供了用于标记化和句子分裂,词性标注,分块,词形还原,关系查找和介词短语附件的工具。

5.Gensim

【Gensim】是一个免费的Python库可扩展的统计语义

分析纯文本文档的语义结构

检索语义相似的文档

6.langid.py

【langid.py 】是一个独立的语言标识(LangID)工具。接受过97种语言的预训练(ISO 639-1代码),培训数据来自5个不同的来源:JRC-Acquis、ClueWeb 09、维基百科、路透社RCV2和Debian i18n。

7. xTAS

【 xTAS】是基于Celery的分布式文本分析套件。部分xtas使用GPL许可软件,例如Stanford NLP工具,以及可能产生额外限制的数据集,检查文档中的各个功能。

8.Pattern

【Pattern】是Python编程语言的Web挖掘模块。它具有数据挖掘工具(谷歌,Twitter和维基百科API,网络爬虫,HTML DOM解析器),自然语言处理(词性标注,n-gram搜索,情感分析,WordNet),机器学习(矢量)空间模型,聚类,SVM),网络分析和可视化。

python爬虫自学笔记分析解密_python爬虫学习笔记——1 各种文本分析工具简介之汇总...相关推荐

  1. python基础知识笔记简书_Python基础学习笔记

    Python貌似有点火热,上手还是比较简单的,自己找了个教程也偷偷的学习一下,扒了一下网上的图片和数据,感觉并不是很难呀(不过之前换电脑,代码丢了,有点可惜,不过网上教程一抓一大把,随便看看也能扒一些 ...

  2. python中socket模块常用吗_python网络学习笔记——socket模块使用记录

    此文章记录了笔者学习python网络中socket模块的笔记. 建议初次学习socket的读者先读一遍socket模块主要函数的介绍. socket模块的介绍可以参考笔者的前一篇关于socket官方文 ...

  3. python爬虫自学笔记分析解密_Python爬虫自学系列(七) -- 项目实战篇(一)

    前言 之所以标题不说是爬什么网,主要是怕大家看了标题以为是之前那篇的返稿.其实不是啊. 这次爬的是腾讯的暑期实习招聘. 上次爬完之后放那边也没去更新过,今天再上去看,发现人家已经改版了. 不知道为啥啊 ...

  4. python用turtle调整文字位置_Python turtle学习笔记

    一.简介 Turtle最早来自于LOGO语言,是专门用于小孩子学习编程的,通过编程模拟一只turtle(海龟)在画板上爬行绘制图案,后来很多高级语言都移植了海龟绘图,python从2.6之后也将tur ...

  5. python中字符串函数的作用_python 基础学习笔记(2)---字符串功能函数

    **上一篇写到了,基本的数据类型,今天重点来讲一下字符串的功能函数** 回顾一下上篇的内容: 一.int 整型,在python 3 中与long型合并 可以达到 -922337203685477580 ...

  6. python僵尸进程和孤儿进程_Python Web学习笔记之并发编程的孤儿进程与僵尸进程...

    1.前言 之前在看<unix环境高级编程>第八章进程时候,提到孤儿进程和僵尸进程,一直对这两个概念比较模糊.今天被人问到什么是孤儿进程和僵尸进程,会带来什么问题,怎么解决,我只停留在概念上 ...

  7. python3学习笔记 雨痕_Python 3 学习笔记:数字和布尔

    数字 基本类型 整数 在 Python 编程中,整数就是数学意义上的整数,包括正整数.负整数和零,且它的位数是任意的.根据表示方法的不同,可以分为: 二进制整数 八进制整数 十进制整数 十六进制整数 ...

  8. 第71课:Spark SQL窗口函数解密与实战学习笔记

    第71课:Spark SQL窗口函数解密与实战学习笔记 本期内容: 1 SparkSQL窗口函数解析 2 SparkSQL窗口函数实战 窗口函数是Spark内置函数中最有价值的函数,因为很多关于分组的 ...

  9. 《python基础教程(第二版)》学习笔记 基础部分(第1章)

    <python基础教程(第二版)>学习笔记 基础部分(第1章) python常用的IDE: Windows: IDLE(gui), Eclipse+PyDev; Python(comman ...

最新文章

  1. c#中接口的使用方法图解_C#图解教程 第十五章 接口
  2. Ubuntu下通过 PPA 安装 Komodo 编辑器
  3. Leetcode 187.重复的DNA序列
  4. React 18 带给我们的惊喜
  5. springboot redis 断线重连_Redis高可用方案实现
  6. 怎样与用户有效的沟通以获取用户的真实需求
  7. URI Is Not Registered
  8. java保护性拷贝(effective java)
  9. Chrome 谷歌浏览器账户无法登录、注册
  10. PHP——简单留言板
  11. 推荐一款免费的内网端口映射工具
  12. 应用程序,软件,小程序,APP的区别?
  13. VS2013使用教程总结(1)---忽略安全检查
  14. 从零开始搭建仿抖音短视频APP--开发用户业务模块(1)
  15. 囚犯排队红帽子和蓝帽子问题
  16. python爬取好友微信地区_python爬取微信信息--显示性别/地域/词云(附代码)
  17. HTML常见的处理文本的标签,比如说加粗啦、斜体啦等等等。。。
  18. 异地多活场景下的数据同步之道
  19. hw1-浅谈Dota2设计元素
  20. JS基础知识必看篇(黄梦岚)

热门文章

  1. VTK修炼之道11:基本数据结构_数据对象数据集
  2. 普211标准三维EE零基础转CS申
  3. SQL匹配多字段进行排序,搜索
  4. 在应用环境中如何构造最优的数据库模式
  5. 嵌入式FreeRTOS系统,在中断中调用FreeRTOS系统的API函数
  6. 【CyberSecurityLearning 6】IIS之WEB服务器和FTP服务器
  7. Struts2学习总结三
  8. PriorityQueue源码解析
  9. 日常生活小技巧 -- 重装win10系统
  10. 深入理解 Java 锁与线程阻塞