点击上方“码农突围”,马上关注,每天早上8:50准时推送

真爱,请置顶或星标

昨天的朋友圈都在丧心病狂的秀恩爱,秀520红包!于是就有人出来普法教育。。。

可是还有更多老铁连发红包的机会都没有。。。

为什么这么多如此优秀的同学都还是单身呢?你有分析过自己单身的原因吗?

一、需求背景

今天逛微博的时候发现一个有趣的话题#90后单身原因TOP3#

七夕之际,一份针对全国90后青年婚恋观进行抽样调查公布了结果。结果显示,一线城市单身占比持续领先。90后单身原因TOP3:圈子小、工作忙、对爱情幻想过于完美

单身的三大原因:圈子小、工作忙、对爱情幻想过于完美

猪哥觉得这三个原因都并不合理,难道单身的原因难道不是因为吗?

二、功能描述

好奇这个调查是怎么来的?猪哥认为真实性有待考证,刚好这几天我们也学习了如何爬取微博话题,今天就来分析一下为何很多同学如此优秀却依然单身!

三、技术方案

  1. 模拟登录微博

  2. 爬取话题

  3. 保存文件

  4. 数据清洗

  5. 数据分析

四、模拟登录

模拟登录之前讲爬取#周杰伦超话#的时候已经讲过了,这里就不再重复,直接贴出代码!

五、爬取话题

1.找到话题加载数据url

https://m.weibo.cn/api/container/getIndex?containerid=100103type%3D61%26q%3D%2390%E5%90%8E%E5%8D%95%E8%BA%AB%E5%8E%9F%E5%9B%A0TOP3%23%26t%3D0&isnewpage=1&extparam=pos%3D41%26c_type%3D31%26realpos%3D40%26flag%3D0%26filter_type%3Drealtimehot%26cate%3D0%26display_time%3D1565179797&luicode=10000011&lfid=106003type%3D25%26t%3D3%26disable_hot%3D1%26filter_type%3Drealtimehot&page_type=searchall

2.代码模拟请求数据

我们依然使用requests库来爬取数据,这次猪哥在请求的时候增加了一个参数:timeout,这样做是为了防止请求某个一直没有应答导致堵死其他请求!

3.提取微博内容

要想提取微博内容就需要了解请求返回的数据格式

了解数据格式之后我们就可以写代码提取我们想要的微博内容啦!

上图我们已经拿到微博内容,但是还有很多网页标签,我们来用正则将网页标签去掉,和开头的话题开头!

4.保存文件

微博内容提取出来之后,我们将他们保存起来!

六、批量爬取

批量爬取就涉及分页,上次我们将周杰伦超话时,它的分页机制是:

微博超话分页机制:根据时间分页,每一条微博都有一个since_id,时间越大的since_id越大所以在请求时将since_id传入,则会加载对应话题下比此since_id小的微博,然后又重新获取最小since_id将最小since_id传入,依次请求,这样便实现分页

那这个话题的分页机制也是这样的吗?我们来对比一下第一次请求与第二次请求的url

我们发现普通话题的分页机制竟然是page的形式,看来微博对不同级别的话题有不同的分页机制!

page形式的分页机制,之前我们讲了很多个案例,直接for循环传入i,而这个i就当作page就可以啦!

七、数据分析

数据分析我们采用pyecharts库,这是一个非常好用的可视化分析库!

先读取数据,然后使用jieba库进行分词和数据清洗,最后使用pyecharts库做展示!

之前调查结果显示单身的三大原因是:圈子小、工作忙、对爱情幻想过于完美。在我们数据分析得出的结果好像确实如此!

说句题外话,有不少人想加鱼哥微信,鱼哥姑且放出来,但是坑位有限哦
想去大厂么?来加入鱼哥技术星球,放大你进大厂概率扫描如下二维码加入我的知识星球: 推荐阅读憋了1年,今天,我有件大事和大家说下!"2019,别去互联网大厂了!"

七夕过后,我用Python分析了大家单身的原因,结果令人震惊...相关推荐

  1. 七夕过后,你分析过自己单身原因的原因吗?

    昨天的朋友圈都在丧心病狂的秀恩爱,秀520红包!于是就有人出来普法教育... 可是很多老铁连发红包的机会都没有... 为什么这么多如此优秀的同学都还是单身呢? 一.需求背景 今天逛微博的时候发现一个有 ...

  2. Python分析离散心率信号(下)

    Python分析离散心率信号(下) 如何使用动态阈值,信号过滤和离群值检测来改善峰值检测. 一些理论和背景 到目前为止,一直在研究如何分析心率信号并从中提取最广泛使用的时域和频域度量.但是,使用的信号 ...

  3. Python分析离散心率信号(中)

    Python分析离散心率信号(中) 一些理论和背景 心率信号不仅包含有关心脏的信息,还包含有关呼吸,短期血压调节,体温调节和荷尔蒙血压调节(长期)的信息.也(尽管不总是始终如一)与精神努力相关联,这并 ...

  4. Python分析离散心率信号(上)

    Python分析离散心率信号(上) 一些理论和背景 心率包含许多有关信息.如果拥有心率传感器和一些数据,那么当然可以购买分析包或尝试一些可用的开源产品,但是并非所有产品都可以满足需求.也是这种情况.那 ...

  5. 盛夏海边,用Python分析青岛哪些景点性价比高

    作者 | 志斌 来源 | 志斌的python笔记 头图 | 付费下载于 IC Photo 在经过几年的热潮之后,人工智能AI算法已经在各行各业广泛使用了.例如在工业制造中,利用人工智能监测仪器仪表.人 ...

  6. Python分析101位《创造营2020》小姐姐,谁才是你心中的颜值担当?

    来源 | CDA 数据分析师 责编 |  Carol Show me data,用数据说话. 今天我们聊一聊<创造营2020>各个小姐姐,点击下方视频,先睹为快: 最近可以追的综艺真是太多 ...

  7. 用Python分析《红楼梦》:见证了贾府的兴衰,你是否还能“笑道”世事无常

    没读过<红楼梦>也能知道前后四十回是不是一个作者写的?很久以前,数据侠黎晨,用机器学习的算法分析了<红楼梦>,认为后四十回和前八十回内容上有明显差距.不过,数据侠楼宇却不这么认 ...

  8. 用Python分析了十年电影票房,原来我错过了这么多好电影!

    "玩电影票房数据,我教你啊" 3月8日妇女节,我很期待的超级英雄电影<惊奇队长>上映了,票房表现很快过亿,但大众口碑却让人失望. 一个有趣且常见的现象是,隔壁获奖无数, ...

  9. 用Python分析了1980~2015年考研英语真题词汇,原来考研英语应该这样考!

    微信改版,加星标不迷路! 用Python分析了1980~2015年考研英语真题词汇,原来考研应该这样考! 作者:阿广 概述 前言 数据介绍 实现过程 考研英语词汇统计分析 搞笑一刻 阿广说 每日问题 ...

  10. 用Python分析了1w四六级数据,教你如何通过四六级!

    微信改版,加星标不迷路! 用Python分析了1w四六级数据,教你如何通过四六级! 作者:阿广 概述 前言 数据介绍 预期结果 实现过程 搞笑一刻 阿广说 每日问题 前言 陈奕迅说过:在有生的瞬间,考 ...

最新文章

  1. 用了5年的旧笔记本不要丢,1/4新机价格升级机器学习战斗本,隔壁研究员都馋哭了...
  2. python 案例串接_来撸串,一个案例轻松认识Python 字符串——翻转拼接游戏
  3. ABAP:判断是否汉字
  4. usg2130 虚拟服务器,usg2130防火墙怎么样设置
  5. Ipad 日程管理APP使用心得
  6. JavaScript DOM 编程艺术 --- JavaScript语法
  7. iis mysql5.7_手动配置网站环境 IIS 10+PHP 7.1+MySQL 5.7
  8. 二年级小学生四则运算30道题目
  9. extjs展示列表,显示来很多空白行,但是数据没显示
  10. Excel的html转换成unicode,EXCEL表格中把汉字转换成unicode编码
  11. caffe调参经验资料文章
  12. 开源程序安装框架-BitNami
  13. 鸿蒙分布式内核,华为发布鸿蒙:基于微内核的全场景分布式OS
  14. 职教云怎么合并账号_云课堂智慧职教怎么注销账号
  15. Linux for嵌套if的格式,Shell篇(2)-条件语句if及循环语句 for , while , unti
  16. AvgPool2d函数
  17. web设计——NBA队标
  18. [论文阅读] Meta-Weight-Net: Learning an Explicit Mapping For Sample Weighting
  19. 项目1在线交流平台-7.构建安全高效的企业服务-5.redis高级数据结构应用-统计网站数据-独立访客和日活跃用户
  20. 数据结构-哈夫曼树详解(类C语言版)

热门文章

  1. Fullpage:基础学习
  2. 主干网络系列(1) -ResNet: Deep Residual Learning for Image Recognition
  3. 论文阅读笔记(六)——GhostNet: More Features from Cheap Operations
  4. 最新!泰晤士2021亚洲大学排名发布:91所中国大陆高校上榜!
  5. Windows Azure Cloud Service (42) 使用Azure In-Role Cache缓存(1)Co-located Role
  6. 杭电acm2028 Lowest Common Multiple Plus
  7. MyQR库自动为网址生成二维码
  8. 在input标签里只能输入数字
  9. python学习:猜数字游戏
  10. 用C#实现软件自动更新思路