点击上方“菜鸟学Python”,选择“置顶或者星标”

第一时间收到精彩推送!

说干就干,机器学习离不开数据集,这次我们就从全国大陆的人口普查数据入手,看看全国大陆的人口情况,以及利用K-means算法来分析我们可以去哪里找寻我们的另一半。数据来源于全国人口普查网站:

http://www.stats.gov.cn/tjsj/pcsj/rkpc/6rp/indexch.htm

大家只需要按照需求下载对应的数据即可,小编下载的是全国大陆各个省(直辖市)的区分性别、受教育程度的6岁及以上人口数据。并进行一定的处理后,保存为csv格式文件。处理完成后的数据如下图所示。

01.数据可视化分析

首先我们要看一下大陆的人口分布的情况,我们根据各个省市的人口数量,做出直观的可视化图片,如下图所示。

主要是利用pyecharts对上面的数据进行抽取,然后快速制作全国的人口数据分析图,这样分析起来更直观可靠。

由上图我们可以看出,大陆的人口分布中主要集中在东南沿海地区,其中广东、河南和山东是大陆人口数量前三名的省。

02.增加数据的维度

下面小编为数据增加了两个比率,分别是大陆各省市中受过高等教育(大学本科及以上)的人口所占的比重,以及在收到高等教育的人口中,男女的比例分别为多少。在此基础下,我们得到了一下的两个结果图:

从上图中可以发现,大陆各个省的受过高等教育的人群中,普遍呈现出男性高于女性的现象。而安徽省这一比例高达1.6493。而在各个省的高等教育比重中,北京上海的比重最为显著,天津的比重也不错。

但是我觉得随着教育的不断发展和教育质量的不断提升,高等教育的比例将会逐渐提升。有了以上的两个比率的分析,接下来就利用K-means算法来分析一下,究竟哪里才是我们理想的寻找另一半的地域。

03.用机器学习K-means来分析

首先我们要理解什么是K-means呢?俗话说,人以类聚,物以群分。K-means算法就是利用不同个体之间的距离来作为衡量他们之间关系远近的标准,如下图所示。

由于图中的白点距离黄色点较近,因此它被分为黄色点。这就是分类算法的依据,而K-means算法中的“K”代表的是我们想要将数据分为几类,有多少类“K”就是多少,例如上图中的“K”就应该为2类。

这里我们调用sklearn库里的KMeans算法,通过对“高等教育男女比重”, “高等教育比重"两项数据来进行聚类,将数据分为六类,然后对不同的类别,分别赋予不同的颜色。最后利用matplotlib库来进行可视化的展示。

我们以上面的“各省高等教育男女比重”和“各省高等教育比重”来作为距离数据,利用K-means算法来分为6类,如下图所示:

上图中,图片越往左下角走,说明高等教育比重和高等教育男女比重越低而越往右上角走,则高等教育比重和高等教育男女比重越高。我们希望的是高等教育的比重越高越好,而高等教育男女比重越低越好,这样才女多的地方才有机会!

可以看出,北京处于一枝独秀的状态,自成一类,而其他的大陆各省市被划分为了其余的五类。从上面的分布中我们可以结合自身的情况来决定,到哪里去找适合自己的女朋友:

  • 如果你想偏向去受高等教育高的地方,可以去上图中左上角的地方去;

  • 如果是想去男女比例较为平衡的地方,可以向左下角所示的省市去;

其实想想,北京确实有很多美女如云的大学校园,比如北京外国语大学,中央名族学院,首都师范大学,外交学院,对外经济贸易大学,北京服务学院等等,都是女神啊!

近期热门:

倒计时2天!千人Python知识星球重大福利,一年仅一次,还剩2天!

太好玩了,我用Python写了个火影忍者版的连连看

建议看一下,零基础学Python都想问的6个问题,老司机给你两千字解答

学习群:

小密圈人气很高的两个实战项目

小密圈的趣味实战-微信主题

3个月还没入门Python,看这100名小密圈的同学3周学Python的杰作

漫画,开学季来临,用Python告诉你,女朋友应该从全国的哪个城市找相关推荐

  1. 印象笔记mac版 同步问题_新的开学季来临,如何使用印象笔记保持进步

    随着大中小学相继复学,广大学子也终于要回到学校开始熟悉的校园生活,如何在新的学习中保持进步,快速进入学习状态呢?让印象笔记来帮你吧! 深受学生党喜爱的印象笔记带来的一波新功能:清单.模版.便签.素材库 ...

  2. python画大学教室_开学季,用Python画大学教室座位神分区图,你中枪了吗?

    这就用Python给大家画这幅有趣的神分区图,看看是不是跟你的情况一样呢? 基本思路:我们将画布分成若干子画布,这些子画布构成绘图区域,在这些绘图区域上分别绘制图形,这就让我们想到函数subplot2 ...

  3. python爬虫学习之爬取全国各省市县级城市邮政编码

    实例需求:运用python语言在ip查询 查ip 网站ip查询 同ip网站查询 iP反查域名 iP查域名 同ip域名网站爬取全国各个省市县级城市的邮政编码,并且保存在excel文件中 实例环境:pyt ...

  4. 萤石云好友分享的监控怎么看_助力开学季丨萤石云APP新增群组分享功能、扩容优惠套餐!...

    开学季 萤石云新功能上线 又是一年忙碌充实的开学季,小小少年们又回到了学校,萤石幼儿园校长却多了份幸福的烦恼:宝爸宝妈们都想看自家孩子的上课录像,可每次只能跨过班主任直接向校长申请:小班的同学座位升到 ...

  5. 开学季学生党需要准备哪些数码好物,分享几款实用的数码好物

    开学季来临,新届大一新生也开始准备自己的大学生活,在这时候相信有很多同学都会准备添置一些数码好物.很多同学都想找日常会使用到的一些数码产品,但又希望是性价比高的且实用性好的.小篇对数码产品方面多少有点 ...

  6. 开学季,复旦老师教你玩转“0”“1”浪漫!| 人物志

    受访者 | 戴开宇 采访者 | 伍杏玲 出品 | 程序人生(ID:coder_life) 近日,华为招聘 8 位顶尖应届博士生制定的薪资方案引起热议,2019 届应届博士生年薪 89.6 万起步,最高 ...

  7. 开学季征文 | 新学期,新规划

    文章目录 前言 一.自我介绍 二.新学期目标 三.未来的发展规划 写在最后 前言 一.自我介绍 我是山西的,山西临汾的,临汾吉县的.目前在省会太原生活和工作.        我是在出来工作3年后,又决 ...

  8. 各大新生的军训马上快结束了!Python告诉你军训前后你黑了几度!

    一年一度的大学开学季,一年一度的军训季. 在六月中旬高考结束之后,万千学子迎来了他们人生中最长也是最无忧无虑的假期,到了八月底九月初,他们将踏上人生的一段重要旅程--大学. 然而等待他们的第一课,便是 ...

  9. Python告诉你:为何年终奖多发一元,到手却少两千多?

    作者 | shenzhongqiang 来源 | Python数据与分析(ID:ML_Python) 年终奖多发一元,到手却要少两千多,甚至更多.听到这个消息的时候,大家是不是觉得有点意外,意外之余还 ...

最新文章

  1. 剑指offer:两个链表的第一个公共结点
  2. 几个经典的TCP通信函数
  3. JAVA多线程中wait()方法的详细分析
  4. 各种类型Android源代码
  5. POJ 327820493083
  6. 网络知识:宽带下载网速是30MB/s,经过路由器后仅10MB/s,看完你就懂了!
  7. 费用流-Wannafly Day2 TwoGraph-神题
  8. springmvc + mybatis + ehcache + redis 分布式架构
  9. 将一个十进制转换为二进制,八进制,十六进制
  10. 河北机电职业技术学院计算机分数线,河北机电职业技术学院历年分数线 2021河北机电职业技术学院录取分数线...
  11. power系列服务器问题PA模板,与 Power BI 报表服务器集成
  12. 服务器cpu最多几核心,决定虚拟服务器所需要的CPU核心数量是一件非常复杂的事情...
  13. mysql如何导出sql文件_MYSQL导入导出.sql文件
  14. 将EBS设为首页worklist删除误报
  15. 常用的网站建设程序有哪些?
  16. 系统集成项目管理工程师证有什么用处?
  17. C++ for_each函数
  18. 高斯输出文件批量读取能量
  19. SQL 中round(),floor(),ceiling()函数的用法和区别
  20. 杭州端点科技java,端点实习面试(一面)

热门文章

  1. 谷歌浏览器的收藏夹消失了,怎么处理——谷歌浏览器书签
  2. 【技术美术美术部分】AO贴图的烘焙及应用
  3. 微信小程序接收富文本编辑器图片大小解决方法
  4. STM32串口发送和接收
  5. js数组遍历结果错误
  6. 【STM32】贪吃蛇小游戏
  7. 丈量你的代码,从cloc开始
  8. 手把手教你实现一个 Python 计时器
  9. mysql中聚集索引和非聚集索引区别
  10. 《游戏学习》JAVA版坦克大战课程设计及源码