一、需求背景

今天逛微博的时候发现一个有趣的话题#90后单身原因TOP3#

七夕之际,一份针对全国90后青年婚恋观进行抽样调查公布了结果。结果显示,一线城市单身占比持续领先。90后单身原因TOP3:圈子小、工作忙、对爱情幻想过于完美。

单身的三大原因:圈子小、工作忙、对爱情幻想过于完美!

猪哥觉得这三个原因都并不合理,难道单身的原因难道不是因为穷吗?

二、功能描述

好奇这个调查是怎么来的?真实性有待考证,刚好这几天我们也学习了如何爬取微博话题,今天就来验证一下为何如此优秀却依然单身!

三、技术方案

模拟登录微博

爬取话题

保存文件

数据清洗

数据分析

四、模拟登录

模拟登录之前讲爬取

五、爬取话题

1.找到话题加载数据url

2.代码模拟请求数据

我们依然使用requests库来爬取数据,这次猪哥在请求的时候增加了一个参数:timeout,这样做是为了防止请求某个一直没有应答导致堵死其他请求!

3.提取微博内容

要想提取微博内容就需要了解请求返回的数据格式

了解数据格式之后我们就可以写代码提取我们想要的微博内容啦!

上图我们已经拿到微博内容,但是还有很多网页标签,我们来用正则将网页标签去掉,和开头的话题开头!

4.保存文件

微博内容提取出来之后,我们将他们保存起来!

六、批量爬取

批量爬取就涉及分页,上次我们将周杰伦超话时,它的分页机制是:

微博超话分页机制:根据时间分页,每一条微博都有一个since_id,时间越大的since_id越大所以在请求时将since_id传入,则会加载对应话题下比此since_id小的微博,然后又重新获取最小since_id将最小since_id传入,依次请求,这样便实现分页

那这个话题的分页机制也是这样的吗?我们来对比一下第一次请求于第二次请求的url

我们发现普通话题的分页机制竟然是page的形式,看来微博对不同级别的话题有不同的分页机制!

page形式的分页机制,之前我们讲了很多个案例,直接for循环传入i,而这个i就当作page就可以啦!

七、数据分析

数据分析我们采用pyecharts库,这是一个非常好用的可视化分析库!

先读取数据,然后使用jieba库进行分词和数据清洗,最后使用pyecharts库做展示!

之前调查结果显示单身的三大原因是:圈子小、工作忙、对爱情幻想过于完美。在我们数据分析得出的结果好像确实如此!

之前说大家单身的原因是因为穷,看来只有猪哥穷!

python新浪微博数据分析_Python 爬取新浪微博数据分析90后单身原因相关推荐

  1. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...

  2. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) —— 编写一个基本的 Spider 爬取微博用户信息

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目 在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...

  3. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息 在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...

  4. python爬取微博数据存入数据库_Python爬取新浪微博评论数据,写入csv文件中

    因为新浪微博网页版爬虫比较困难,故采取用手机网页端爬取的方式 操作步骤如下: 1. 网页版登陆新浪微博 2.打开m.weibo.cn 3.查找自己感兴趣的话题,获取对应的数据接口链接 4.获取cook ...

  5. python怎么爬取电影海报_Python 爬取猫眼数据分析《无名之辈》为何能逆袭成黑马?...

    原标题:Python 爬取猫眼数据分析<无名之辈>为何能逆袭成黑马? 作者 | 罗昭成 责编 | 唐小引 出品 | CSDN(ID:CSDNNews) 最近几天,有部国产电影因好评及口碑传 ...

  6. python 爬虫餐饮行业 数据分析_Python爬取美团美食板块商家数据

    导语 利用Python简单爬取美团美食板块商家数据... 其实一开始我是想把美团的所有商家信息爬下来的,这样就可以美其名曰百万数据了... 然而相信很多爬过美团的朋友都发现了... 如果不进行一些小操 ...

  7. python微博评论爬虫_详解用python写网络爬虫-爬取新浪微博评论 基于Python的新浪微博爬虫研究...

    怎样爬取新浪微博的评论信息 针对八爪鱼在微博的应用上,除了用户信息之外还包括话题内容方面的采集,目前绝大多数企业均在微博设有官方微博,八爪鱼可以协助企业快速及时的抓取与企业产品相关联的话题信息,规则市 ...

  8. python爬取微博恶评_详解用python写网络爬虫-爬取新浪微博评论

    新浪微博需要登录才能爬取,这里使用m.weibo.cn这个移动端网站即可实现简化操作,用这个访问可以直接得到的微博id. 分析新浪微博的评论获取方式得知,其采用动态加载.所以使用json模块解析jso ...

  9. python做壁纸_Python爬取壁纸

    不想一张张看壁纸怎么办,不想一张张下载怎么办,来让我们用python解决一切,爬取一网站所有壁纸. 1.准备前期运行环境 ·python运行环境,安装request模块 (这个问题需要自己去解决) 2 ...

最新文章

  1. wechaty QR code not recognizable..
  2. Windows XP系统超强支持工具全面接触
  3. 完善你的Laravel异常处理
  4. java mysql curd_javaweb中为mysql的curd多个值的语句
  5. Selenium 编写第一个自动化脚本
  6. 微信小程序开发学习笔记002--微信小程序框架解密
  7. ffmpeg 推流命令记载
  8. 百度地图线路查询路线样式自定义
  9. ioctl函数的inode参数
  10. 滑铁卢大学 S. Keshav 教授:高效阅读科研论文的方法
  11. 【ITPM】TW1:ISchool 项目前期分析说明书
  12. linux系统查看电脑cpu,linux系统怎么查看自己电脑的cpu位数
  13. Api升级28适配填坑(一)
  14. Qt开发的开源项目DBA技术介绍
  15. Android 耳机驱动知识
  16. 攻防世界_江苏工匠杯_MISC_看雪看雪看雪
  17. LPR个人房贷利率如何计算?(商贷部分)
  18. 实体店有哪些引流方式?
  19. Electron从入门到精通
  20. 递归算法O(∩_∩)O哈哈~

热门文章

  1. java并发多数据库连接失败_MAC测试JAVA多线程并发连接数据库问题
  2. Qtdesigner设计实例——计算器 +可执行文件exe制作
  3. PDF压缩在线怎么操作?这几个操作谁还不知道
  4. 如何给你的网站接入第三方支付功能
  5. 致同:三年行动任务过半 国企改革务实发展
  6. linux服务器安装gmt,linux GMT简易安装
  7. php用360浏览器显示不正常,win10系统下360浏览器网页显示不正常的解决方法
  8. 【观点】区块链手机说到底还是伪命题
  9. 按键精灵定位坐标循环_LinkTrack UWB定位正式支持ROS机器人操作系统,驱动开源,自由定制消息格式...
  10. 习题 3.1 假如我国国民生产总值的年增长率为9%,计算10年后我国国民生产总值与现在相比增长多少百分比。