先用电影评论来做情感分析,主要包括下面几个主要内容(看到最后哦):

1、准备文本数据

2、基于文本文档来构建特征向量

3、训练机器学习模型来区分电影评论的正面评论和负面评论(对你的女神同样适用哦~~)

4、使用外存学习和在线学习算法来处理大数据

在本篇文章中,主要介绍对于电影评论数据的准备工作。

一、情感分析

情感分析也称观点挖掘(opinion mining),是机器学习中自然语言处理(NLP)领域一个非常流行的分支,它主要是分析文档的情感倾向。

二、下载数据

请自行准备一个电影信息(或者直接使用你和女神的聊天信息)

该电影评论是来自IMDb中的电影评论,数据集一共包含了50000个关于电影的正面评论和负面评论,正面评论代表对于影片的评分超过了6颗星,而负面评论则表示评分低于5颗星。50000条评论被分成了四个文件夹train的neg和pos和test的neg和pos,其中每个文件夹中包含了12500个txt电影评论文件,其中pos代表正面评论,neg代表负面评论。所以,我们需要将这50000个txt文件整合成一个表格,表格分为两列,第一列表示评论的内容,第二列表示评论是属于正面(用1表示)还是负面(用0表示)。

三、生成电影评论的表格文件

将50000个txt文件整合成一个表格文件的时候,需要十分钟左右。我们可以通过Python的pyprind库将整个处理过程可视化,同时它还能根据当前计算机的运行状态来估计剩余处理时间,处理完成之后,还能查看消耗的总时间。通过python的数据分析库pandas将电影评论保存成一个csv文件。

1、预计处理总时间

2、统计处理总时间

3、python实现代码

我们还需要知道将文本转换为特征向量前的一些准备工作,主要内容包括:

1、清洗文本数据

2、标记文档

3、词袋模型

一、清洗文本数据

清洗文本需要将文本中所包含的一些不必要的字符删除。

1、删除不必要的字符

print(data["review"][0][-50:])

is seven.

Title (Brazil): Not Available

发现评论中含有一些HTML标记符、标点符号、以及其他的非字母符号。HTML标记符在对于我们对评论做情感分析的时候没有影响,至于标点符号可能会影响句子的语义,为了简化处理我们将标点符号进行删除,保留表情符号(如":)"),因为表情符号对于电影评论情感的分析很有帮助。下面,我们通过python的正则表达式来删除这些不必要的字符。

python的正则表达式提供了一种字符串搜索特定字符串的方便有效方法,正则表达式也要很多的技巧和方法,如果对正则表达式有兴趣的话可以自己去了解一下。在这里我们只是简单的使用一下,所以对正则表达式不会有太过详细的介绍。

2、标记文档

对于英文文档我们可以利用其天然的空格作为单词的分隔符,如果是中文的时候,可以利用一些分词库如jieba分词。在句子中,我们可能会遇见先"runners"、"run"、"running"单词不同的形式,所以我们需要通过词干提取(word

stemming)来提取单词原形。最初的词干提取算法是由Martin F. Porter在1979年提出的,被称为porter

stemming算法。我们可以通过安装python的自然语言工具包NLTK,官网安装链接:http://www.nltk.org/install.html,在NLTK中已经是实现了Porter

Stemming算法,还有实现了比它更高级的Snowball stemmer和Lancaster stemmer与porter

stemming相比,它们更加的提取速度更快。可以通过pip命令进行安装

pip install nltk

3、停用词的移除

停用词大致可以分为两类,一类是功能词,这些功能词非常普遍,与其他的词相比,功能词没有什么实际的含义,比如"the"、"is"、"at"、"which"等。还有一类是词汇词,比如"want"等。停用词对于电影评论的情绪分类没有任何意义,所以我们需要将一些停用词进行删除。通过nltk.download函数获取NLTK提供的停用词,并使用这些停用词来移除电影评论中的停用词。NLTK库提供的停用词,一共有179个,下面给出部分的停用词

我们还需要做什么呢?

1、将单词转换为特征向量

2、TF-IDF计算单词关联度

在之前,我们已经知道一些文本的预处理和分词。这篇文章中,主要介绍如何将单词等分类数据转成为数值格式,以方便我们后面使用机器学习来训练模型。

一、将单词转换为特征向量

词袋模型(bag-of-words model):将文本以数值特征向量的形式来表示。主要通过两个步骤来实现词袋模型:

1、为整个文档集(包含了许多的文档)上的每个单词创建一个唯一的标记。

2、为每个文档构建一个特征向量,主要包含每个单词在文档上的出现次数。

注意:由于每个文档中出现的单词数量只是整个文档集中很少的一部分,因此会有很多的单词没有出现过,就会被标记为0。所以,特征向量中大多数的元素就会为0,就会产生稀疏矩阵。

下面通过sklearn的CountVectorizer来实现一个词袋模型,将文档转换成为特征向量

通过count.vocabulary_我们可以看出每个单词所对应的索引位置,每一个句子都是由一个6维的特征向量所组成。其中,第一列的索引为0,对应单词"and","and"在第一和二条句子中没有出现过,所以为0,在第三条句子中出现过一些,所以为1。特征向量中的值也被称为原始词频(raw

term frequency)简写为tf(t,d),表示在文档d中词汇t的出现次数。

注意:在上面词袋模型中,我们是使用单个的单词来构建词向量,这样的序列被称为1元组(1-gram)或单元组(unigram)模型。除了一元组以外,我们还可以构建n元组(n-gram)。n元组模型中的n取值与特定的应用场景有关,如在反垃圾邮件中,n的值为3或4的n元组可以获得比较好的效果。下面举例说明一下n元组,如在"the weather is sweet"这句话中,1元组:"the"、"weather"、"is"、"sweet"。2元组:"the weather"、"weather is"、"is sweet"。在sklearn中,可以设置CountVecorizer中的ngram_range参数来构建不同的n元组模型,默认ngram_range=(1,1)。sklearn通过CountVecorizer构建2元组

二、TF-IDF计算单词关联度

在使用上面的方法来构建词向量的时候可能会遇到一个问题:一个单词在不同类型的文档中都出现,这种类型的单词其实是不具备文档类型的区分能力。我们通过TF-IDF算法来构建词向量,从而来克服这个问题。

词频-逆文档频率(TF-IDF,term frequency-inverse document frequency):tf-idf可以定义为词频×逆文档频率

其中tf(t,d)表示单词t在文档d中的出现次数,idf(t,d)为逆文档频率,计算公式如下

其中,nd表示文档的总数,df(t,d)表示包含单词t的文档d的数量。分母中加入常数1,是为了防止df(t,d)=0的情况,导致分母为0。取log的目的是保证当df(t,d)很小的时候,不会导致idf(t,d)过大。

通过sklearn的TfidfTransformer和CountVectorizer来计算tf-idf

可以发现"is"(第二列)和"the"(第六列),它们在三个句子中都出现过,它们对于文档的分类所提供的信息并不会很多,所以它们的tf-idf的值相对来说都是比较小的。

注意:sklearn中的TfidfTransformer的TF-IDF的计算与我们上面所定义TF-IDF的公式有所不同,sklearn的TF-IDF计算公式

通常在计算TF-IDF之前,会对原始词频tf(t,d)做归一化处理,TfidfTransformer是直接对tf-idf做归一化。TfidfTransformer默认使用L2归一化,它通过与一个未归一化特征向量L2范数的比值,使得返回向量的长度为1,计算公式如下:

下面通过一个例子来说明sklearn中的TfidfTransformer的tf-idf的计算过程,以上面的第一句话"The sun is shining"为例子

1、计算原始词频

a、单词所对应的下标

b、计算第三句话的原始词频tf(t,d)

c、计算逆文档频率idf(t,d)

注意:其他的词在计算tf-idf都是0,因为原始词频为0,所以就不需要计算idf了,log是以自然数e为底。

d、计算tf-idf

所以,第一个句子的tf-idf特征向量为[0,1,1.29,1.29,0,1,0]

e、tf-idf的L2归一化

在下一篇文章中将介绍如何使用这些句子的特征向量来构建一个模型进行情感分类。虽然在实际演示的是电影影评,但是训练好了可是可以用来处理你的聊天信息的哦~~~

想不想用来测试一下你的女神和你聊天时候的情绪呢?保你牵手成功!!!

另外,小编有自己的学习交流群大家如果想要来学习的话,可以一起来交流:719+139+688,不管你是小白还是大牛,小编都欢迎,而且小编会在群里面不定期分享干货,包括小编自己整理的一份2018年最新学习资料和大神分享直播,欢迎初学和进阶中的小伙伴

对财经新闻情感分析python_我用Python进行情感分析,让程序员和女神牵手成功相关推荐

  1. 几组数据的相关性python_数据分析---用Python进行相关性分析(兼谈假设检验)

    一.相关关系和相关系数 世上除了因果关系,还有相关关系. 有一个叫"相关系数"的指标来量化两个事物之间的相关程度. 其中相关系数用"r"表示,取值范围介于-1和 ...

  2. python 相关性分析_数据分析---用Python进行相关性分析(兼谈假设检验)

    一.相关关系和相关系数 世上除了因果关系,还有相关关系. 有一个叫"相关系数"的指标来量化两个事物之间的相关程度. 其中相关系数用"r"表示,取值范围介于-1和 ...

  3. python关联分析引擎_PowerBI x Python 之关联分析(上)

    前言 据说,全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段.没想到这个举措居然使尿布和啤酒的 ...

  4. python自动生成分析报告_利用PYTHON全自动生成分析报告

    日常工作当中,特别是金融行业当中,有不少人的工作是提取数据,分析数据,得到可视化图表,并加入自已的研究分析结论,最终生成分析报告,并且有不少报告是定期生成,存在不少重复手工劳动.本文通过一个简单实例, ...

  5. Q新闻丨Java 9正式版恐再延期;顺丰菜鸟口水战涉及阿里云;编程语言排行榜Python第四;盲人程序员背百万字符,用耳朵编程...

    编辑|小智 本周要闻:Java 9 正式版有可能被推迟到 9 月 21 号发布:顺丰.菜鸟口水战始末,或涉及阿里云:Node.js 发布 v8.0.0:Visual Studio for Mac 版本 ...

  6. 《分析一波NBA今年季后赛之狂野西部》程序员不好好写代码,聊上篮球了!

    人世仙家本自殊,何须相见向中途.惊鸿瞥过游龙去,漫恼陈王一事无. 嗨,大家好,我是洛神,性别男.一个来自快乐星球的程序员. 欢迎大家专注我的公众号[程序员洛神],绝对让你有意外收获哟 今天聊点啥? 今 ...

  7. 数据挖掘情感分析python_数据挖掘实战:Twitter情感分析

    背景介绍 自然语言处理(NLP)是当今数据科学研究的热点,其最常见的应用之一是情绪分析.从民意调查到创建整个营销策略,这个领域已经彻底改变了企业的工作方式,这就是为什么每个数据科学家都必须熟悉这个领域 ...

  8. python 爬取财经新闻_如何用 100 行 Python 代码实现新闻爬虫?

    CSDN",选择"置顶公众号" 关键时刻,第一时间送达! 每天我都要坐地铁上班,而地铁里完全没有手机信号.但我希望在坐地铁的时候读些新闻,于是就写了下面这个新闻爬虫. 我 ...

  9. python 情感分析实例_基于Python的情感分析案例

    **情感分析 **又称为倾向性分析和意见挖掘 它是对带有情感色彩的主观性文本进行分析.处理.归纳和推理的过程 其中情感分析还可以细分为情感极性 倾向 分析 情感程度分析 主客观分析等. 情感极性分析的 ...

最新文章

  1. 实现给一个DIV加阴影效果!
  2. Vue开发跨端应用(三)添加cordova
  3. python爬虫入门代码-如何开始写你的第一个爬虫脚本——简单爬虫入门!
  4. python好学吗mooc中文网-2020年大学mooc用Python玩转数据作业答案
  5. 深入浅出python机器学习_4.3.2_岭回归的参数调节-2_绘制折线图
  6. 阮一峰网络日志 第41期 2019年01月25日
  7. LOJ#2087 国王饮水记
  8. SAP Spartacus 4.0 源代码模式下开启 SSR,为什么会从本地去加载 all.css?
  9. 11月25号站立会议
  10. 【网络基础】《TCP/IP详解》学习笔记4
  11. CodeForces 501B - Misha and Changing Handles
  12. mysql 字段加减_MySQL数据库开发常见问题及优化(续)
  13. java基础 泛型类的定义
  14. django后台集成富文本编辑器Tinymce的使用
  15. vb代码转为c++代码_vb代码转为c++代码_VB源码转换工具(VBto Converter)
  16. php msn,利用php给MSN发送消息
  17. LDO的基础特性——热关断
  18. DAP数据分析平台介绍
  19. mysql 1701,MySQL ERROR 1701 (42000)
  20. 使用handeye_calib_camodocal进行手眼标定

热门文章

  1. 7个Linux手机平台比较 (4):多媒体架构的异同
  2. Linux 中deb文件选择安装路径
  3. 解决 springboot 上传头像后台接收 MultipartFile 为 null 问题
  4. OpenCV图像的按位逻辑运算
  5. python读取大疆激光雷达LVX数据并显示
  6. 软件测试方法和测试流程
  7. Navicat的替代工具,开源免费的DBeaver支持多种数据库
  8. Golang 基础案例集合:中文拼音转换、解析二维码、压缩 zip、执行定时任务
  9. 一文学会JavaScript计时事件
  10. 2011年7月9日 阳光灿烂的重庆