基于Python实现情感分析实验
资源下载地址:https://download.csdn.net/download/sheziqiong/86764011
资源下载地址:https://download.csdn.net/download/sheziqiong/86764011
1. 情感分析综述
情感分析也称为意见挖掘,是自然语言处理(NLP)中的一个领域,它试图在文本中识别和提取意见。
情感分析有很多的应用场景,例如社交媒体监控、品牌监控、客户之声、客户服务、员工分析、产品分析、市场研究与分析等等。
实现情感分析的方法有很多,大体上分为两大类,第一类为基于词典规则的方法,第二类为基于机器学习的方法。
1.1 基于词典的方法
基于词典的方法主要通过制定一系列的情感词典和规则,对文本进行拆句、分析及匹配词典(一般有词性分析,句法依存分析),计算情感值,最后通过情感值来作为文本的情感倾向判断的依据。
基于词典的情感分析大致步骤如下:
- 对大于句子力度的文本进行拆解句子操作,以句子为最小分析单元;
- 分析句子中出现的词语并按照情感词典匹配;
- 处理否定逻辑及转折逻辑;
- 计算整句情感词得分(根据词语不同,极性不同,程度不同等因素进行加权求和);
- 根据情感得分输出句子情感倾向性。
如果是对篇章或者段落级别的情感分析任务,按照具体的情况,可以以对每个句子进行单一情感分析并融合的形式进行,也可以先抽取情感主题句后进行句子情感分析,得到最终情感分析结果。
1.2 基于机器学习的方法
机器学习的方法是将情感分析作为一个有监督的分类问题。对于情感极性的判断,将目标情感分为三类:正、中、负。对训练文本进行人工标注,然后进行有监督的机器学习过程,并对测试数据用模型来预测结果。
基于机器学习的情感分析大致步骤如下:
首先进行文本预处理。文本的预处理过程是使用机器学习作用于文本分类的基础操作。由于文本是非结构化数据及其特殊性,计算机并不能直接理解,所以需要一系列的预处理操作后,转换为计算机可以处理的结构化数据。在实际分析中,文本更为复杂,书写规范也更为随意,且很有可能掺杂部分噪声数据。整体上来说,文本预处理模块包括去噪、特征提取、文本结构化表示等。
- 特征抽取:
中文最小语素是字,但是往往词语才具有更明确的语义信息,但是随着分词,可能出现词语关系丢失的情况。n-元文法正好解决了这个问题,它也是传统机器学习分类任务中最常用的方法。
- 文本向量化:
对抽取出来的特征,向量化是一个很重要的过程,是实现由人可以理解的文本转换为计算机可以处理数据的重要一步。这一步最常用到的就是词袋模型(bag-of-words )以及最近新出的连续分布词向量模型(word Embedding)。词袋模型长度为整个词表的长度,词语对应维度置为词频,文档的表示往往比较稀疏且维度较高。Embedding 的表示方式,能够有效的解决数据稀疏且降维到固定维度,更好的表示语义信息。对于文档表示,词袋模型可以直接叠加,而 Embedding 的方法可以使用深度学习的方法,通过 pooling 得到最终表示。
- 特征选择:
在机器学习分类算法的使用过程中,特征好坏直接影响机器的准确率及召回率。选择有利于分类的特征,可以有效的减少训练开支及防止模型过拟合,尤其是数据量较大的情况下,这一部分工作的重要性更加明显。其选择方法为,将所有的训练语料输入,通过一定的方法,选择最有效的特征,主要的方法有卡方,信息熵,dp 深层感知器等等。
目前也有一些方法,从比句子粒度更细的层次去识别情感,如基于方面的情感分析(Aspect based Sentiment Analysis),他们从产品的评价属性等更细粒度的方面对评价主体进行情感倾向性分析。
文本转换为机器可处理的结构后,接下来便要选择进行机器学习的分类算法。目前,使用率比较高的是深度学习(CNN,RNN)和支持向量机(SVM)。深度学习的方法,运算量大,准确率有一定的提高,所以都在做这方面的尝试。而支持向量机则是比较传统的方法,其准确率及数据处理能力也比较出色,很多人都在用它来做分类任务。
2. 系统方法
本次实验的任务如下:
设计和实现分类系统,完成对文本的情感分类任务,这里包含三种情感:中性,积极和消极。程序语言、框架、学习方法不限,可使用外部语料,不可使用已有的情感分析或文本分类库。
由于不能使用现有的词典,考虑到仅仅用现有的 8606 条样例可能无法搭建出一个精准度较高的词典,如果使用基于词典的方法可能准确率不尽如人意。同时,基于词典的方法的召回率一般而言会比较低。因此,我优先准备使用机器学习的方法,将情感分析当作一个有监督的三分类问题。分类算法方面,我是用支持向量机(SVM),主要是因为 SVM 分类速度比较快,也比较容易实现,而且准确率也有一定的保证。(还因为不会 LSTM)
资源下载地址:https://download.csdn.net/download/sheziqiong/86764011
资源下载地址:https://download.csdn.net/download/sheziqiong/86764011
基于Python实现情感分析实验相关推荐
- 基于python的情感分析案例-python snownlp情感分析简易demo(分享)
SnowNLP是国人开发的python类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和T ...
- 基于python的情感分析案例-基于情感词典的python情感分析
Python Python开发 Python语言 基于情感词典的python情感分析 近期老师给我们安排了一个大作业,要求根据情感词典对微博语料进行情感分析.于是在网上狂找资料,看相关书籍,终于搞出了 ...
- 基于python的情感分析案例-python自然语言处理情感分析案例
产品价值 自然语言处理是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,已经广泛应用在电商.文化娱乐.金融.物流等行业客户的多项业务中.自然语言处理API可帮助用户搭建内容搜索.内容推荐.舆情识 ...
- 基于python的情感分析案例-用python实现文本情感分析
注:本文转载自知乎专栏 情感分析就是分析一句话说得是很主观还是客观描述,分析这句话表达的是积极的情绪还是消极的情绪. 原理 比如这么一句话:"这手机的画面极好,操作也比较流畅.不过拍照真的太 ...
- python 情感分析实例_基于Python的情感分析案例
**情感分析 **又称为倾向性分析和意见挖掘 它是对带有情感色彩的主观性文本进行分析.处理.归纳和推理的过程 其中情感分析还可以细分为情感极性 倾向 分析 情感程度分析 主客观分析等. 情感极性分析的 ...
- Python爬取《你好李焕英》豆瓣短评并基于SnowNLP做情感分析
爬取过程在这里: Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图 本文基于前文爬取生成的douban.txt,基于SnowNLP做情感分析. 依赖库: 豆瓣镜像比较快: ...
- 论文浅尝 - ICLR2020 | 知道什么、如何以及为什么:基于方面的情感分析的近乎完整的解决方案...
论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱.自然语言处理. 链接:https://arxiv.org/abs/1911.01616 动机 基于目标的情感分析或基于方面的情感分析(ABSA) ...
- [NLP]基于IMDB影评情感分析之BERT实战-测试集上92.24%
系列文章目录 深度学习NLP(一)之Attention Model; 深度学习NLP(二)之Self-attention, Muti-attention和Transformer; 深度学习NLP(三) ...
- Python文本情感分析实战【源码】
Python文本情感分析 引言: 情感分析:又称为倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析.处理.归纳和推理的过程,其中情感分析还可以细分为情感极性(倾向)分析,情感程度分析,主客 ...
最新文章
- DWS和各异构数据库的差异对比
- SAP/SD - 做SD你要知道的透明表
- 虚拟交换机软件_H3C交换机IRF配置介绍
- Linux内核协议栈分析之网卡初始化——tcp/ip通信并不神秘(1)
- Prototype使用Event
- [转载]for循环的执行顺序
- nbu备份本机oracle,大话nbu九(nbu异机备份恢复oracle)
- 小白的一周学习汇总!
- 转置卷积(Transposed Convolution)
- 2022蓝牙耳机哪款更值得买?最受欢迎的十大蓝牙耳机排行榜
- Actors 基于消息驱动的异步编程模型
- 【供应链架构day4】途牛进销存架构的演进之路 - 从诞生到发展
- 鸿蒙电视应用beta,华为鸿蒙 2.0 开发者公测版 Beta 3 更新:增加三个鸿蒙应用
- vue改变class内的属性_vue 绑定 添加class 属性 4种方法 添加style 3中方法 v-bind /:...
- ExecuteNonQuery()的用法
- dya6 列表的相关函数
- CRM客户管理系统在企业中起到什么作用?
- hdu3182 状态压缩水题
- shiro整合SSM使用ehcache出现的net.sf.ehcache.CacheException异常解决办法
- 阿里云大学Apsara Clouder云安全专项技能认证:云平台使用安全
热门文章
- phpCMS V9 史上最详细环境搭建(windows)
- linux 查看gcc版本,支持C++11
- 词嵌入 网络嵌入_词嵌入深入实践
- 手机升级鸿蒙后流畅度,留给安卓时间不多了!新版鸿蒙系统再传好消息:流畅度媲美IOS...
- 如何在Dreamweaver CS3中使用自定义字体
- 大型动态表单实例整合 angular7 4-具体应用与数据库配置 与总结
- Jetson OrinNxNano平台 FPDlink Ⅲ相机采集---双目场景应用
- android控件_textview
- 【8028】产品规划七宗罪
- 单片机——数码管动态显示