源码下载地址

中文微博情感分类语料库

  • "情感分析"是我本科的毕业设计, 也是我入门并爱上NLP的项目hhh, 当时网上相关语料库的质量都太低了, 索性就自己写了个爬虫, 一边标注一边爬, 现在就把它发出来供大家交流。因为是自己的项目,所以标注是相当认真的,还请了朋友帮忙校验,过滤掉了广告/太短/太长/表意不明等语料,语料质量是绝对可以保证的
  • 带情感标注的微博语料数量: 10000(train.txt)+500(test.txt)
  • 另一个项目对这个语料库进行了预处理, 用SVM/XGBoost/LSTM/Attention等各种机器学习和深度学习的方法训练了模型
    地址

数据格式

  • 文档的每一行代表一条语料
  • 每条语料的第一个数据为微博对应的mid,是每条微博的唯一标签,可以通过"https://m.weibo.cn/status/" + mid 访问到该条微博的网页(部分微博可能已被博主删除)
  • 第二个数据为情感标签, 0表示负面, 1表示正面
  • 其余后面部分都是微博文本
  • 微博表情都被转义成[xx]的格式, 如:
  • 微博话题/地理定位/视频、文本超链接等都转义成了{%xxxx%}的格式,使用正则可以很方便地将其清洗

文件说明

train.txt:

  • 10000条语料, 根据情感倾向二分类标注, 作为训练集
  • 对负面语料轻微过采样, 正: 负 = 5497:4503

test.txt:

  • 500条语料, 依据情感倾向二分类标注
  • 随机采样, 正: 负 = 7:3
  • 作为测试集

topics/XXX.txt:

  • 100条不同主题的语料, 未进行情感分类标注(文件里全部标注为1), 可用于舆情分析测试
  • 当时还不会分布式爬虫, 所以爬的比较少, 不要嫌弃QAQ

数据分析

训练集属性 平均数 0.95分位数
语料长度(含符号) 80.9091 161
语料有效词数(含停用词) 38.74 87
语料句数 4.1653 11
PS: 语料长度的0.95分位数为161, 表示95%的语料长度都小于161

训练集/测试集词频统计, 已去停用词, 不同的分词方法得到的结果会略有差异

  • 训练SVM后查看支持向量, 得到了正面/负面情感最强烈的一些词汇


源码下载地址

源码下载地址

Python 基于机器学习的微博情感分析与研究相关推荐

  1. Python基于机器学习的文本情感分析详细步骤[附代码和文字解释]

    最近在研究情感分析,感谢CSDN上很多博主的文章,让我受益匪浅.因此在跑出准确率高达88%的分类结果后,写下自己的代码和总结,希望对大家有所帮助~ 目录 一.文本数据预处理 1.读取json并转化为列 ...

  2. 基于Roberta进行微博情感分析

    概览: 情感分析是NLP中一大分支,本文尝试使用预训练模型(Roberta-wwm-ext)对微博通用数据进行情感分类,共六种类别(积极.愤怒.悲伤.恐惧.惊奇.无情绪).数据来源:SMP2020微博 ...

  3. 基于机器学习的微博突发事件分析与谣言检测

    全套资料下载地址:https://download.csdn.net/download/sheziqiong/85585133?utm_source=bbsseo 全套资料下载地址:https://d ...

  4. java对微博评论进行分析_微博上分析情感的_中文情感分析java_中文微博情感分析...

    目前,社会正处于一个微博崛起的时代,一切有关于微博的问题都被社会广泛关注,并得到了工业界和学术界的高度重视.微博从出现以来,取得了良好的发展,并拥有大众的普遍关注和应用.微博的超大信息量和高速度的更新 ...

  5. 文本情感分析方法研究小结

    文本情感分析总结 1. 文本情感分析简介 何谓文本情感分析,其实很简单,利用算法来分析提取文本中表达的情感.例如分析一个句子表达的好.中.坏等判断,高兴.悲伤.愤怒等情绪.如果能将这种文字转为情感的操 ...

  6. python微博评论情感分析_基于Python的微博情感分析系统设计

    2019 年第 6 期 信息与电脑 China Computer & Communication 软件开发与应用 基于 Python 的微博情感分析系统设计 王 欣 周文龙 (武汉工程大学邮电 ...

  7. python微博文本分析_基于Python的微博情感分析系统设计

    基于 Python 的微博情感分析系统设计 王欣 ; 周文龙 [期刊名称] < <信息与电脑> > [年 ( 卷 ), 期] 2019(000)006 [摘要] 微博是当今公众 ...

  8. 【毕业设计_课程设计】基于各种机器学习和深度学习的中文微博情感分析

    文章目录 前言 项目介绍 实验结果 舆情分析 工程结构 前言 基于各种机器学习和深度学习的中文微博情感分析 提示:适合用于课程设计或毕业设计,工作量达标,源码开放 项目介绍 1.用FastText在语 ...

  9. [Python人工智能] 三十四.Bert模型 (3)keras-bert库构建Bert模型实现微博情感分析

    从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章开启了新的内容--Bert,首先介绍Keras-bert库安装及基础用法及文本分类工作.这篇文章将通过keras- ...

最新文章

  1. ajax 服务器怎么响应,发出请求对象(AJAX)后如何从服务器获取响应
  2. 能源局再出新招 拟推光伏电站竞价上网
  3. 成绩差的同学为何大多当老板?
  4. 学习CSS的背景图像属性background
  5. golang中的os包
  6. Android高通平台调试Camera驱动全纪录
  7. vscode运行虚拟环境virtualenv时报错:\Scripts\Activate.ps1,因为在此系统上禁止运行脚本
  8. 天冷打字全靠抖?!桌面暖手宝,体验10s速热,温暖升级,冬天有TA就够了
  9. XmlDocument类
  10. lamp mysql5.0_CentOS 5/6 LAMP(Apache MySQL PHP)一键安装脚本
  11. go func()和 go_Go的泛型真的要来了—如何使用以及它们是怎么工作的
  12. Hybrid A*论文解析(4)
  13. mysql中profile的使用
  14. dedecms读取多个类别信息
  15. java如何进行性能调优,Java性能调优常用方法
  16. ResNet网络结构详解(Tensorflow2.6.0实现网络结构)
  17. (Cisco模拟)链路聚合 Eth-trunk
  18. 计算机网络(第五版)读书笔记
  19. 台电tbook10s官方固件_【11月1日】台电官方系统固件更新
  20. html花瓣特效代码,网页上漂浮的花瓣

热门文章

  1. 服务器主板能不能装家用系统,组装个人家用服务器 - 具备NAS和HTPC功能
  2. 大数据Spark入门案例5–统计广告点击数量排行Top3(scala版本)
  3. 《中国人工智能学会通讯》——11.40 面向知识库的实体链接
  4. 你有10万粉丝又如何,然而并没有什么卵用!
  5. Bluetooth Core Spec经典蓝牙安全机制导读
  6. latex与文章写作心得
  7. python3GUI--多功能火星文转化器(附源码)
  8. ZZULI-1184 平面点排序(二)(结构体专题)
  9. 202021 浏览器主页被劫持,无法修改默认网址
  10. 三维扫描仪FlexScan3D软件的SDK开发