目录

  • 1. 数据获取部分
    • 实验环境
    • 数据获取目标
    • 抓包
      • PC端和移动端分析
      • 抓取到的目标链接
    • 分析评论信息存储位置
    • 爬虫结果
  • 2. 情感分析部分
    • 数据准备
    • 主要代码
    • 效果
  • 3. 词云图部分
    • 主要代码
    • 效果

1. 数据获取部分

实验环境

Requests、json、io、sys、re、time、csv

数据获取目标

抓包

PC端和移动端分析

PC端抓包后,发现参数过多。
从移动端某博抓取url,发现加密参数较少方便入手
爬像新浪某博这样的大网站,不用想就知道不登录肯定是爬不了多少数据的(事实就是不登录的话只能爬第一页的评论数据)。
所以我们先抓取到cookie进行保存:

抓取到的目标链接

这里只提取了我想要爬取的四个目标url:

https://m.weibo.cn/1653196740/4595525837399095
https://m.weibo.cn/2027363802/4319350444018706
https://m.weibo.cn/2602644737/4638484377896654
https://m.weibo.cn/2337348632/4638209580207301

界面如下:

分析评论信息存储位置

首先自动加载评论数据时抓取ajax请求,发现response有unicode编码的数据,截图如下:

通过preview视图中发现,这些编码正式我们想要的评论数据,截图如下:

3. 那么如果获取自动加载的下一页的评论信息呢?抓取下一页的评论数据url分析
第一页的url为:

第二页的url为:

结果,请求中多了一个max_id和max_id_type

继续分析两者request和response发现:
第一页返回的json信息中包含的max_id和max_id_type正是下一页所需要的url参数。

接下来就可以开始我们的爬虫了。

爬虫结果

爬取结果如下,只爬了1W条左右:

2. 情感分析部分

数据准备

  1. BosonNLP_sentiment_score.txt 词语评分表
  2. degree.csv 程度副词表
  3. not.csv 否定词表
  4. stopword.txt 停用词表
    篇幅限制,读者可以自行百度这些表的含义

主要代码


利用pandas,jieba来计算每条评论信息的分数,主要代码如上

效果

代码会生成两个文档:

一个是pos积极评论文档,一个是neg消极评论文档
neg文档如下:
(可以通过评论ID,找到原评论)
有部分误差,后期还可以通过调整评分阈值进行优化

pos文档如下:

这个基本是没什么误差的

3. 词云图部分

主要代码

效果

微博评论爬虫 | 情感分析 | 词云图展示相关推荐

  1. 合工大Python语言与系统设计大作业:微博评论文本情感分析

    大作业:爬取微博评论文本并且分析文本的情感极性:pos or neg 外挂图片失败,请自行发挥想象!!! 文章目录 大作业:爬取微博评论文本并且分析文本的情感极性:pos or neg 设计背景 系统 ...

  2. python3爬取微博评论api情感分析_如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析...

    param = (comment_id,user_name,created_at,text,likenum,source) try: A = cur.execute(sql,param) conn.c ...

  3. 利用500万条微博语料对微博评论进行情感分析

    最近身边的人都在谈论一件事:10月8日中午的一条微博,引发了一场微博的轩然大波.导致微博瘫痪的原因是全球超人气偶像明星鹿晗发了一条"大家好,给大家介绍一下,这是我女朋友@关晓彤". ...

  4. 不破不立~EDG夺冠,用Python分析词云图展示粉丝弹幕数据,来感受粉丝的热情吧

    大家好~我是恰恰,好久不见啦~Python的乐趣就在于在互联网时代,能实现很多人工做不到的事~    虽然我不是经常玩游戏,但是我这该死的爱国情怀,在EDG夺冠的时候,我也是十分激动的! 北京时间11 ...

  5. 【Python】微博热评情感分析

    想要光明正大又不用冒着被封号的危险拿到微博数据么?想要获悉热门微博下网友评论的情感倾向么?想要知道大家都在使用什么表情么?如果你想,恭喜你,你可以在这个教程里找到你想要的一切元素. 你将会通过微博开放 ...

  6. 基于IndRNN的微博短文本情感分析设计与实现

    目录 摘要 数据集描述 模型构建与实现 1.IndRNN模型原理 2. IndRNN代码实现 3.词嵌入特征实现(word2vec) 实验结果对比分析 实验环境: 实验设计: RNN模型实验结果: L ...

  7. 文本分析合集,文本向量处理的方法jieba,对文本的特征工程之TfidfVectorizer以及结合TruncatedSVD,WordCloud词云图展示

    文本分析合集,文本向量处理的方法jieba,对文本的特征工程之TfidfVectorizer以及结合TruncatedSVD,WordCloud词云图展示 对于一列文本我们需要对其进行操作的话首先要进 ...

  8. 基于SnowNLP的商品评论文本情感分析

           摘要:情感文本电商情感标注分析研究是当前电商数据情感挖掘学术研究的重要热点,具有极高的国际应用价值.对当前电商手机在线商品评论词典进行情感文本电商情感标注分析与词典数据情感挖掘研究具有很 ...

  9. 对京东评论进行情感分析—LDA模型

    对京东评论进行情感分析-LDA模型 根据python制作词云图和python爬取京东评论,我们对商品评论做进一步分析. 一.情感分析的用途 首先,我们先看情感分析这个概念,百度上基本都是文本情感分析的 ...

最新文章

  1. DFS与BFS的总结
  2. JavaScript中的this妙用
  3. 小朋友排队|2014年蓝桥杯B组题解析第十题-fishers
  4. spring security:自定义认证成功处理器
  5. 如何让css与js分离
  6. java 上界和下界,Java 泛型上下界(上下限)
  7. swot分析模板_学生个人生涯规划报告模板
  8. 【科研人必备】各大英文期刊投稿必备搜索/文章相关推荐投稿搜索方法
  9. 《UE4蓝图完全学习》笔记
  10. ctf比赛的三种形式
  11. 有赞测试新人训之探索与实践
  12. springboot界面上传文件和在页面上显示文件
  13. UBUNTU 16.04无线网卡驱动
  14. 苹果 iOS 10 更新消息汇总,iPhone 4s 可能用不了
  15. 汇编总结(2)——IA-32处理器基本功能
  16. 山东计算机专业好的专科大学,山东专科大学前十名有哪些?山东所有专科大学排名榜单...
  17. 通过高通平台简单总结的权限问题
  18. IDC机房ESXi5.0误删除虚拟机的数据恢复过程
  19. 谁在使用 MacBook?来聊聊苹果笔记本的用户群体
  20. 第 2 章 进程管理

热门文章

  1. 北航计算机组成原理课程设计-2021秋 PreProject-MIPS-测试程序设计
  2. ChatGPT中文网
  3. 升级 phpStudy 中 MySQL 版本
  4. 集成学习(一)—— 机器学习基础
  5. 分享10款小白也能做起来的平衡车设计资料
  6. 面试总结:任意一个整数分解为几个连续正整数之和
  7. 共享单车数据集超10万条
  8. 健身笔记(六)---健身四个月后总结
  9. Grub 4 DOS 简介
  10. webpack代理 host文件 微信小程序公众号开发必配