Python 基于机器学习的微博情感分析与研究
源码下载地址
中文微博情感分类语料库
- "情感分析"是我本科的毕业设计, 也是我入门并爱上NLP的项目hhh, 当时网上相关语料库的质量都太低了, 索性就自己写了个爬虫, 一边标注一边爬, 现在就把它发出来供大家交流。因为是自己的项目,所以标注是相当认真的,还请了朋友帮忙校验,过滤掉了广告/太短/太长/表意不明等语料,语料质量是绝对可以保证的
- 带情感标注的微博语料数量: 10000(train.txt)+500(test.txt)
- 另一个项目对这个语料库进行了预处理, 用SVM/XGBoost/LSTM/Attention等各种机器学习和深度学习的方法训练了模型
地址
数据格式
- 文档的每一行代表一条语料
- 每条语料的第一个数据为微博对应的
mid
,是每条微博的唯一标签,可以通过"https://m.weibo.cn/status/" + mid 访问到该条微博的网页(部分微博可能已被博主删除) - 第二个数据为情感标签,
0表示负面
,1表示正面
- 其余后面部分都是微博文本
- 微博表情都被转义成
[xx]
的格式, 如: - 微博话题/地理定位/视频、文本超链接等都转义成了
{%xxxx%}
的格式,使用正则可以很方便地将其清洗
文件说明
train.txt
:
- 10000条语料, 根据情感倾向二分类标注, 作为训练集
- 对负面语料轻微过采样, 正: 负 = 5497:4503
test.txt
:
- 500条语料, 依据情感倾向二分类标注
- 随机采样, 正: 负 = 7:3
- 作为测试集
topics/XXX.txt
:
- 100条不同主题的语料, 未进行情感分类标注(文件里全部标注为1), 可用于舆情分析测试
- 当时还不会分布式爬虫, 所以爬的比较少, 不要嫌弃QAQ
数据分析
训练集属性 | 平均数 | 0.95分位数 |
---|---|---|
语料长度(含符号) | 80.9091 | 161 |
语料有效词数(含停用词) | 38.74 | 87 |
语料句数 | 4.1653 | 11 |
PS: 语料长度的0.95分位数为161, 表示95%的语料长度都小于161 |
训练集/测试集词频统计, 已去停用词, 不同的分词方法得到的结果会略有差异
- 训练SVM后查看支持向量, 得到了正面/负面情感最强烈的一些词汇
源码下载地址
源码下载地址
Python 基于机器学习的微博情感分析与研究相关推荐
- Python基于机器学习的文本情感分析详细步骤[附代码和文字解释]
最近在研究情感分析,感谢CSDN上很多博主的文章,让我受益匪浅.因此在跑出准确率高达88%的分类结果后,写下自己的代码和总结,希望对大家有所帮助~ 目录 一.文本数据预处理 1.读取json并转化为列 ...
- 基于Roberta进行微博情感分析
概览: 情感分析是NLP中一大分支,本文尝试使用预训练模型(Roberta-wwm-ext)对微博通用数据进行情感分类,共六种类别(积极.愤怒.悲伤.恐惧.惊奇.无情绪).数据来源:SMP2020微博 ...
- 基于机器学习的微博突发事件分析与谣言检测
全套资料下载地址:https://download.csdn.net/download/sheziqiong/85585133?utm_source=bbsseo 全套资料下载地址:https://d ...
- java对微博评论进行分析_微博上分析情感的_中文情感分析java_中文微博情感分析...
目前,社会正处于一个微博崛起的时代,一切有关于微博的问题都被社会广泛关注,并得到了工业界和学术界的高度重视.微博从出现以来,取得了良好的发展,并拥有大众的普遍关注和应用.微博的超大信息量和高速度的更新 ...
- 文本情感分析方法研究小结
文本情感分析总结 1. 文本情感分析简介 何谓文本情感分析,其实很简单,利用算法来分析提取文本中表达的情感.例如分析一个句子表达的好.中.坏等判断,高兴.悲伤.愤怒等情绪.如果能将这种文字转为情感的操 ...
- python微博评论情感分析_基于Python的微博情感分析系统设计
2019 年第 6 期 信息与电脑 China Computer & Communication 软件开发与应用 基于 Python 的微博情感分析系统设计 王 欣 周文龙 (武汉工程大学邮电 ...
- python微博文本分析_基于Python的微博情感分析系统设计
基于 Python 的微博情感分析系统设计 王欣 ; 周文龙 [期刊名称] < <信息与电脑> > [年 ( 卷 ), 期] 2019(000)006 [摘要] 微博是当今公众 ...
- 【毕业设计_课程设计】基于各种机器学习和深度学习的中文微博情感分析
文章目录 前言 项目介绍 实验结果 舆情分析 工程结构 前言 基于各种机器学习和深度学习的中文微博情感分析 提示:适合用于课程设计或毕业设计,工作量达标,源码开放 项目介绍 1.用FastText在语 ...
- [Python人工智能] 三十四.Bert模型 (3)keras-bert库构建Bert模型实现微博情感分析
从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章开启了新的内容--Bert,首先介绍Keras-bert库安装及基础用法及文本分类工作.这篇文章将通过keras- ...
最新文章
- ajax 服务器怎么响应,发出请求对象(AJAX)后如何从服务器获取响应
- 能源局再出新招 拟推光伏电站竞价上网
- 成绩差的同学为何大多当老板?
- 学习CSS的背景图像属性background
- golang中的os包
- Android高通平台调试Camera驱动全纪录
- vscode运行虚拟环境virtualenv时报错:\Scripts\Activate.ps1,因为在此系统上禁止运行脚本
- 天冷打字全靠抖?!桌面暖手宝,体验10s速热,温暖升级,冬天有TA就够了
- XmlDocument类
- lamp mysql5.0_CentOS 5/6 LAMP(Apache MySQL PHP)一键安装脚本
- go func()和 go_Go的泛型真的要来了—如何使用以及它们是怎么工作的
- Hybrid A*论文解析(4)
- mysql中profile的使用
- dedecms读取多个类别信息
- java如何进行性能调优,Java性能调优常用方法
- ResNet网络结构详解(Tensorflow2.6.0实现网络结构)
- (Cisco模拟)链路聚合 Eth-trunk
- 计算机网络(第五版)读书笔记
- 台电tbook10s官方固件_【11月1日】台电官方系统固件更新
- html花瓣特效代码,网页上漂浮的花瓣