毕业设计:微博语料中文情感分析
向AI转型的程序员都关注了这个号????????????
人工智能大数据与深度学习 公众号:datayx
微博的强大影响力已经深深的吸引了更多的人加入。而对微博的情感分析,不仅可以获取网民的此时的心情,对某个事件或事物的看法,还可以获取其潜在的商业价值,还能对社会的稳定做出一定的贡献。
情感分析(Sentimentanalysis),也称意见挖掘(OpinionMining),主要是对带有感情色彩的主观性文本进行分析、处理、归纳然后进行推理的过程,例如对产品,话题,政策的意见[2]。利用这些分析的结果,消费者可以深入了解商品的实用性,从而优化购买的决策,同时,生产者和经销商可以改善自己的服务,从而赢得竞争的优势。随着信息时代的到来,越来越多的公司开始组建数据分析团队对自身公司的数据进行挖掘、分析。比如某服装公司想调查自己制作的服装的受喜爱程度,就可以从服装的评论入手,挖据文本内容,判断留下评论的用户对服装的喜好态度,积极的、消极的或者是中性的评价。
情感分析作为Web挖掘中新兴的一个领域,对其不同角度的研究也越来越多,比如识别商品评论的信息、判断客户的褒贬态度等。姚天昉[3]等人对情感分析的研究现状做了如下总结:
①首先,介绍情感分析的定义和研究的目的;
②从主题的识别、意见持有者的识别、情感描述的选择和情感的分析四个方面进行评述,并介绍了一些成型的系统;
③讨论中文情感分析的研究现状。而本文将要从微博的符号、词语等粒度上,用情感分析的方法对微博文本进行分类。
虽然研究者在文本挖掘展开了越来越多的研究,但是对各个领域的深入挖掘依然处在探索阶段。而微博,作为一个越来越吸引用户的社交平台,涉及的内容十分广泛,如娱乐、影视、体育等,不同内容针对不同的领域都有着不可忽视的影响。本文主要结合文本情感分析领域的研究结果以及现有的微博情感分析方法,将对微博的情感分析分为四大类:文本预处理、SVM过滤无关信息、进行情感分类、加强分类算法。
代码获取方式
关注微信公众号 datayx 然后回复 微博 即可获取。
AI项目体验地址 https://loveai.tech
项目流程
一、 使用微博应用获取微博文本
二、 SVM初步分类
三、 利用贝叶斯定理进行情感分析
四、 利用AdaBoost加强分类器
一、获取微博文本
二、SVM初步分类
我们使用 python scikitlearn 中的 LinearSVC 进行训练和预测,然后进行训练和预
测,对实验中进行二十次迭代,得出结果绘制成图表如图
三、使用朴素贝叶斯分类
本实验从训练集中随机选取100条用来测试,一共进行了十次实验,统计后将其正确率绘制成曲线如图
四、AdaBoost
Adaboost是一种迭代的算法,会对同一个训练集使用不同的分类器训练,之后,再把这些分类器集合起来,构建一个最终的最强的分类器。其算法本身是通过改变一个权重D的分布来实现的,该权重D初始化一致,然后改变之后交给下一次分类器。使用Adaboost分类器能够过滤掉一些不必要的训练数据特征,然后放在关键的训练数据上面。AdaBoost分类流程图如图
二分类AdaBoost
实验将训练集进行两类标注,分为积极和消极,经过文本预处理,然后采用朴素贝叶斯对训练集进行训练,其中使用AdaBoost对分类器进行加强。对于二分类,该算法的伪代码如下图5.8所示。由图中可以看出,经过50次迭代之后,AdaBoost有效的提升了朴素贝叶斯的分类准确性,由初始的27%变成了16%。
多分类AdaBoost
对于多分类的算法,AdaBoost的处理有多种方式,其中,以SAMME和SAMME.R效率较好。本文中将使用pythonsklearn库中的MultinomialNB和AdaBoost进行实验,sklearn优秀的实现了SAMME和SAMME.R算法,更与MultinomialNB能够完美无缝的结合。
(1) SAMME算法
其调用方式如下:
ada_discrete = AdaBoostClassifier(
base_estimator=multi,
learning_rate=learning_rate,
n_estimators=n_estimators,
algorithm="SAMME")
本实验中,我们首先使用AdaBoost来对训练集进行自个训练(即对自己测试),之后,再用训练结果模型来对测试集进行预测。最后,我们将错误率的结果绘制成图如5.11所示。
由图中可以看出,SAMEE算法波动比较大,主要是由于如果分类错误,该分类算法会偏向于错分类别中概率较大的那一类,最终,分类器的正确率无法有效的提升。
(2)SAMME.R算法
SAMME.R算法的伪代码和SAMME中的类似,只是将AdaBoostClassifier中的algorithm换成"SAMME.R"。
ada_real = AdaBoostClassifier(
base_estimator=multi,
learning_rate=learning_rate,
n_estimators=n_estimators,
algorithm="SAMME.R")
由图中可以看出,SAMME.R算法比较平滑,波动较小。AdaBoost.SAMME.R是对AdaBoost的扩展和提升,其输出结果是一个实数值(也称置信度),将朴素贝叶斯作为其弱分类器之后,能够有效的提高实验的准确度。
AdaBoost算法的研究大部分都集中在分类问题,其中,人脸检测更是优于其他算法,其应用系列解决了多种分类的问题如:二分问题、多类单标签问题、多类多标签问题等。使用该算法仅仅需要增加新分类器,方式简单,同时能够让分类错误率的上届随着训练次数的增加而稳定下降,几乎不会产生过拟合的问题。本文将朴素贝叶斯作为AdaBoost的基分类器,处理多类问题,对微博的分类进行了加强,不仅防止了过拟合问题,还能降低了朴素贝叶斯的错误率。
阅读过本文的人还看了以下文章:
TensorFlow 2.0深度学习案例实战
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《基于深度学习的自然语言处理》中/英PDF
Deep Learning 中文版初版-周志华团队
【全套视频课】最全的目标检测算法系列讲解,通俗易懂!
《美团机器学习实践》_美团算法团队.pdf
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
特征提取与图像处理(第二版).pdf
python就业班学习视频,从入门到实战项目
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
《深度学习之pytorch》pdf+附书源码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
《Python数据分析与挖掘实战》PDF+完整源码
汽车行业完整知识图谱项目实战视频(全23课)
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!
《神经网络与深度学习》最新2018版中英PDF+源码
将机器学习模型部署为REST API
FashionAI服装属性标签图像识别Top1-5方案分享
重要开源!CNN-RNN-CTC 实现手写汉字识别
yolo3 检测出图像中的不规则汉字
同样是机器学习算法工程师,你的面试为什么过不了?
前海征信大数据算法:风险概率预测
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
VGG16迁移学习,实现医学图像识别分类工程项目
特征工程(一)
特征工程(二) :文本数据的展开、过滤和分块
特征工程(三):特征缩放,从词袋到 TF-IDF
特征工程(四): 类别特征
特征工程(五): PCA 降维
特征工程(六): 非线性特征提取和模型堆叠
特征工程(七):图像特征提取和深度学习
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
蚂蚁金服2018秋招-算法工程师(共四面)通过
全球AI挑战-场景分类的比赛源码(多模型融合)
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在线识别手写中文网站
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx
机大数据技术与机器学习工程
搜索公众号添加: datanlp
长按图片,识别二维码
毕业设计:微博语料中文情感分析相关推荐
- 利用500万条微博语料对微博评论进行情感分析
最近身边的人都在谈论一件事:10月8日中午的一条微博,引发了一场微博的轩然大波.导致微博瘫痪的原因是全球超人气偶像明星鹿晗发了一条"大家好,给大家介绍一下,这是我女朋友@关晓彤". ...
- 情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
向AI转型的程序员都关注了这个号??? 大数据挖掘DT数据分析 公众号: datadw 情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中.通过这种 ...
- 基于IndRNN的微博短文本情感分析设计与实现
目录 摘要 数据集描述 模型构建与实现 1.IndRNN模型原理 2. IndRNN代码实现 3.词嵌入特征实现(word2vec) 实验结果对比分析 实验环境: 实验设计: RNN模型实验结果: L ...
- 利用Python实现酒店评论的中文情感分析,含数据集
利用Python实现酒店评论的情感分析 完整代码下载地址:利用Python实现酒店评论的中文情感分析 情感极性分析,即情感分类,对带有主观情感色彩的文本进行分析.归纳.情感极性分析主要有两种分类方法: ...
- python情感分析语料库_python 中文情感分析 Snownlp库的使用
不甘心的时候,就是在进步:痛苦的时候,就是在成长. 文章目录 一.Snownlp 简介 SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于 ...
- 【中文情感分析】SO-PMI算法(HarvestText库的修正以及解析)
简述 在最近的RA过程中,需要使用一个库,同时对其的原理需要理解.然后就研究了一些,发现了几个有趣的,其中一个HarvestText中文情感分析. 我研究了他的源码后,再结合理论知识发现了这个库在情感 ...
- 基于大连理工大学的情感词汇表的中文情感分析
前言 为什么要写这篇文章? 前段时间帮人写了一个这样的小项目,在网上查找资料的过程中,有不少关于该项目的资料,由于各个博主写的代码不尽相同,且没有一个详尽的分析方法,所以我在完成该项目后,想到可以把该 ...
- scrapy 豆瓣短评 数据分析 + 中文情感分析 + 可视化 (一)
scrapy 豆瓣短评 数据分析 + 中文情感分析 + 可视化 (一) 一.scrapy 爬取 豆瓣短评 本次爬取的是哪吒之魔童降世 短评 .本次爬取的是静态网页还是蛮简单的. 1.开始地址 http ...
- 毕设日记(基于微博的大学生情感分析系统)——楔子
新手小小白报道!(.・∀・)ノ 最近开始做毕设,就把这里当作毕设日记本啦. 打算记录一下毕设中学到的知识以及遇到的零零碎碎的问题. 我的毕设题目是-----基于微博的大学生情感分析系统 如果有类似方向 ...
最新文章
- 嵌入式Linux系统BSP的设计与实现
- 左神算法:猫狗队列(通过给不同实例盖时间戳的方法实现)
- 前端 html结合css-1篇
- 读梁宁《一次失控引发的信任评估---我看胡紫薇事件》
- 解决 GiWiFi 普通用户无客户端无法登入
- 使用C++和LIBSVM实现机器学习+样本分类
- C++ STL slice()函数的正确打开方式 带详细注释实例讲解
- MySQL数据库远程连接开启方法
- A - Six Degrees of Cowvin Bacon POJ - 2139 最短路Floyd
- 面对面沟通与文档沟通
- python笔记本电脑推荐2020_最新版:2020年适合程序员的推荐笔记本电脑
- 基于python获取雅虎金融股票数据及相关可视化操作
- 幼儿园教学方案植树节
- matlab 符号 积分法,MATLAB积分方法
- [批量主机存活扫描工具scanhost]扫描主机存活[python版本,非nmap版本]
- GDI函数 坐标系综述
- Javaweb零基础学习(壹)
- 关键路径、工期、总时差和自由时差精讲
- NetCore版本 考勤门禁解决方案,支持中控系列最新BioFace/XFace,海康DS-K1T671人脸识别+测温
- 防雷工程中防雷等级的意义
热门文章
- Termux设置mysql/nginx/php等服务随软件自启动
- 基于java+springboot+mybatis+vue+elementui的乐器购物商城
- docker swarm集群创建、配置、可视化管理实验
- win11的txt记事本无法使用问题
- 在线文件预览工具kkFileView初体验
- springboot打包后读取resources下文件
- CCS7.3安装教程适用于win7系统,并且解决微软更新补丁安装不成功的问题
- 批量清除Maven本地仓库下载失败的垃圾文件
- 《天天来塔防》游戏分析
- unity ios平台不支持TextureFormat.DXT1