前不久,刷到这样一条短视频,“1.7亿的90后仅有约1000万对结婚,结婚率不到10%”,当然我们也无法查实当中数据的来源以及真实性,不过小编倒是总能听说身边的朋友在抱怨脱单难、找不到合适的对象。

今天通过Python写了一个简单的脚本在抓取公开的相亲文案,看看在相亲的都是些什么样的人?他们的择偶标准又是什么样子的?什么样子的人更加容易脱单?

代码的编写过程
我们引入需要用到的库,这里用到Python当中的requests库来发送和接受请求,通过正则表达式re这个库来解析数据

很多时候对遇到请求超时的情况,因此当出现一次错的时候,我们会多尝试几次,因此这里使用retry装饰器来多次尝试

我们抓取的数据包括出生年份、身高/体重、学历、收入、职业、自我介绍、择偶标准、车房情况等等,都是通过正则表达式re库来实现的

下面我们通过pyecharts库来绘制一下分析的结果

结果的可视化展示
我们先来看一下性别比例,从分布来看,女生前来相亲的比例更高,主要也是因为数据源是来自北京、上海、杭州等大城市的相亲介绍,大城市中似乎女生脱单更加困难一些

我们再来看一下单身的女性的特征,首先她们的年龄主要集中在94、93以及95年左右,正好都是处在适婚的年龄

而她们的学历,本科占到了绝大多数,基本上都有本科的学历,而大专的占比排在第二,硕士和博士处于少数

另外小编也对单身女性的星座做了一个统计,发现处女座、天秤座以及射手座、白羊座的女性单身率略高一些

最后,我们来看一下她们的择偶标准吧,小编将她们的择偶标准单独提取出来,然后绘制成了词云图

最后呈现出来的样子如下图所示

可见相亲市场上的女生,她们首先是希望男方是要有房有车的,其次要是男方之前存在婚史,女生会比较介意,然后要是有稳定的工作、有能力有责任心,通常都会给女生留下比较好的印象,而至于外在条件上,大多数女生的回答则是身高在175-180左右,年龄在90-97年之间。

源:关于数据分析与可视化 作者:俊欣

Python爬取千条相亲数据,看看单身率90%的中国男女都在挑剔什么相关推荐

  1. Python爬取豆瓣电影评论数据(通用模板代码)----以《中国医生》为例

    中国医生豆瓣电影评论获取 1 前言 2 数据源分析 3数据爬取(代码实现) 4 结果展示 1 前言   豆瓣是影迷评分.非视频网站,也非购票平台,能长期专门使用豆瓣标记.评价电影的,相对来说是属于影迷 ...

  2. 哪些程序员在围观 996.ICU?Python 爬取 40000 条 GitHub 数据告诉你!

    作者丨Alfred 责编 | 伍杏玲 本文经授权转载自 Alfred数据室(ID:Alfred_Lab) 最近程序员界发生了一件大事儿.如果说"流浪大师" 沈巍在抖音快手里是顶级流 ...

  3. Python 爬取 201865 条《隐秘的角落》弹幕数据,发现看剧不如爬山?

    Python 爬取 201865 条<隐秘的角落>弹幕数据,发现看剧不如爬山? 本文不涉及剧透!请放心食用 最近又火了一步国产剧:<隐秘的角落> 如果你没看过,那可能会对朋友圈 ...

  4. Python 爬取 201865 条《隐秘的角落》弹幕,发现看剧不如爬山?

    作者 | 朱小五 责编 | 屠敏 封图 | CSDN 付费下载自东方 IC 最近又火了一部国产剧:<隐秘的角落>. 如果你没看过,那可能会对朋友圈里大家说的"一起去爬山" ...

  5. python实战|python爬取58同城租房数据并以Excel文件格式保存到本地

    python实战|python爬取58同城租房数据并以Excel文件格式保存到本地 一.分析目标网站url 目标网站:https://cq.58.com/minsuduanzu/ 让我们看看网站长啥样 ...

  6. python 爬取亚马逊评论_用Python爬取了三大相亲软件评论区,结果...

    小三:怎么了小二?一副愁眉苦脸的样子. 小二:唉!这不是快过年了吗,家里又催相亲了 ... 小三:现在不是流行网恋吗,你可以试试相亲软件呀. 小二:这玩意靠谱吗? 小三:我也没用过,你自己看看软件评论 ...

  7. 用python爬取基金网信息数据,保存到表格,并做成四种简单可视化。(爬虫之路,永无止境!)

    用python爬取基金网信息数据,保存到表格,并做成四种简单可视化.(爬虫之路,永无止境!) 上次 2021-07-07写的用python爬取腾讯招聘网岗位信息保存到表格,并做成简单可视化. 有的人留 ...

  8. 爬取电商平台数据,python爬取某维商品数据

    本次内容: 爬取电商平台数据,python爬取某维商品数据 课程亮点 动态数据抓包演示 json数据解析 requests模块的使用 保存csv 环境介绍 python 3.8 [最好用和老师一样的版 ...

  9. 手把手教你使用Python爬取西刺代理数据,不用担心我封IP了!

    /1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...

最新文章

  1. saltstack实现haproxy+keepalived负载均衡+高可用(二)
  2. pandas使用normalize函数将dataframe中的时间(time)数据列转化为日期(date)数据列(例如,从2019-12-25 11:30:00到2019-12-25)
  3. iphone 软键盘
  4. Python爬虫基本框架
  5. RocketMq namesvr 最佳实践
  6. HTTP Status 403 - Access to the requested resource has been denied
  7. JavaScriptDOM
  8. OPENCV MFC 程序出错修改
  9. 分享5个冷门而超级实用的在线网站,大家赶紧来看看吧!
  10. UOJ#33-[UR #2]树上GCD【长链剖分,根号分治】
  11. JSF技术的相关网站和BBS
  12. 手机连接WIFI后无法上网,是怎么回事?
  13. 面试必问的 Linux 命令帮你整理好啦 (下)
  14. 强大新UI装逼神器微信小程序源码+多模板支持多种流量主模式
  15. wpa_supplicant wps手册的翻译
  16. python截取视频图像_python视频按帧截取图片工具
  17. 【HD Tune变红/警告】硬盘 SMART 检测参数详解
  18. view函数--python
  19. android 高通手机精品游戏合集
  20. 计算机 英语职称免试条件,职称计算机免试条件

热门文章

  1. Java-Jdk12版本下载后没有Jre的解决方案以及配置环境变量
  2. 在Windows Server 2016和SQL Server Always On可用性组上安装SQL Server 2019
  3. 使用备份和还原以及SMB协议将SQL数据库从Windows迁移到Linux
  4. 批量执行定时任务_执行批量维护任务安全策略
  5. SQL Server中的T-SQL元数据功能的完整指南
  6. nginx静态资源 性能_如何欺骗生产环境资源以进行性能调整
  7. transact-sql_如何使用Transact-SQL创建,配置和删除SQL Server链接服务器
  8. 如何将链接的服务器从SQL Server“调试”到Oracle数据库实例
  9. redis原理及实现
  10. linux交换分区swap分区的构建