今天是2021年8月20号,晚上坐在家里面,突然看到了2021福布斯排行榜的新闻。于是有感而发,写了这篇文章。

新闻 : 排行榜123网富豪频道为您提供2021年福布斯富豪榜,榜单包括2021世界首富排行榜,以及全球各个国家富豪排名。目前杰夫·贝佐斯以1914亿美元的财富位居世界首富第一名,而中国首富为:钟睒睒(身价:626亿美元)

由于这是一个表格型的数据,也没什么反扒措施,为了节省时间,直接上pandas库吧,我只需要5行代码就行啦!

import pandas as pd
import csvfor i in range(1,16):  # 爬取全部页tb = pd.read_html(f'https://www.phb123.com/renwu/fuhao/shishi_{i}.html')[0] tb.to_csv(r'福布斯排行榜.csv', mode='a', encoding='utf_8_sig', index=0)

结果如下:

太尴尬了,标题行都在,那就有14个表头了,我们读取一下,去掉重复行吧!

df = pd.read_csv("福布斯排行榜.csv",header=None)
df.drop_duplicates(inplace=True)
df.to_excel("福布斯排行榜.xlsx",index=None)

直接使用drop_duplicates()函数,实现去重操作,并重新保存了一个新文件。

好了,开始我们的数据探索吧!

df1 = pd.read_excel("福布斯排行榜.xlsx",header=1)
df1

结果如下:

1. 排行榜世界前10

x = df1.head(10)
x

结果如下:

2. 上榜人数最多的前10个国家

df1.groupby("国家/地区")["名字"].count().sort_values(ascending=False)[:10].to_frame().reset_index()

结果如下:

3. 排行榜中国前10

y = df1[df1["国家/地区"] == "中国"]
y.head(10)

结果如下:

其实不管是中国前十,还是世界前十,基本都是一些咱们耳熟能详的企业。不得不说,美国佬上榜的人数确实多。

好了,了解一下就好,在心里激励一下自己吧!成不了别人,更应该加油。就当作是周末的一个鸡汤吧!

5行代码带你爬取 “2021福布斯排行榜“,看看中国都有哪些人?相关推荐

  1. 5行代码带你爬取 2021福布斯排行榜,看看中国都有谁上榜?

    今天晚上坐在家里面,突然看到了2021福布斯排行榜的新闻.于是有感而发,写了这篇文章. 新闻 :排行榜123网公布了2021年福布斯富豪榜,榜单包括2021世界首富排行榜,以及全球各个国家富豪排名.目 ...

  2. 怎么把4399小游戏的代码_25行代码带你爬取4399小游戏数据,看下童年的游戏是否还在...

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 还记得童年的网页小游戏吗?今天带大家爬取4399小游戏网站的数据,游戏名字+链接地址 目标网 ...

  3. 25行代码带你爬取4399小游戏数据,看下童年的游戏是否还在

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 还记得童年的网页小游戏吗?今天带大家爬取4399小游戏网站的数据,游戏名字+链接地址 目标网 ...

  4. python爬取4399小游戏数据_25行代码带你爬取4399小游戏数据,看下童年的游戏是否还在...

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 还记得童年的网页小游戏吗?今天带大家爬取4399小游戏网站的数据,游戏名字+链接地址 目标网 ...

  5. 23行代码带你爬取美女图

    爬取妹子图可能在爬虫里面没有什么技术含量了,新手练练手还是可以的. 今天爬取的网址是:http://www.youzi4.cc/mm/meinv/index_1.html 注意:爬取图片一般要加上re ...

  6. 简单几行代码带你爬取王者荣耀皮肤

    爬取王者荣耀皮肤 分析思路 源代码 爬取王者荣耀皮肤 分析思路 url:https://pvp.qq.com/web201605/js/herolist.json url还是很容易拼接的 源代码 im ...

  7. python热搜排行功能_简单几行代码用Python爬取微博的热搜榜

    简单几行代码用Python爬取微博的热搜榜 想要实时的看微博热搜 但是又不想去微博网站看!怎么办呢?其实很简单! 我们学了这个requests_html 这个库之后 就更加的简单了! 小编只用了短短的 ...

  8. 100行代码教你爬取斗图网(Python多线程队列)

    100行代码教你爬取斗图网(Python多线程队列) 前言 根据之前写的两篇文章,想必大家对多线程和队列有了一个初步的了解,今天这篇文章就来实战一下,用多线程 + 队列 爬取斗图网的全网图片. 你还在 ...

  9. 每日10行代码31:爬取人民日报一日的所有文章并存入数据库

    今天又增加了存入数据库的功能,至此,爬取人民日报的项目已经结束,下一步我将跟另一篇文章的博主比较下代码,从他那学一些有用的东西. import requests import re from bs4 ...

最新文章

  1. Navicat新建查询快捷键
  2. 算法笔记_080:蓝桥杯练习 队列操作(Java)
  3. 5、VTK在图像处理中的应用
  4. csgo服务器linux云崖居,CSGO修改地图天气背景指令
  5. mysql int tinyint_MySQL中int(M)和tinyint(M)数值类型中M值的意义
  6. 通过避免下列 10 个常见 ASP.NET 缺陷使网站平稳运行(转)
  7. 一程序员被判 9 个月:因薪酬等问题离职,rm -f * 删库,瘫痪 6 个小时
  8. pip修改下载源为国内源 linux系统
  9. Java多线程学习二十五:阻塞和非阻塞队列的并发安全原理||如何选择适合自己的阻塞队列?
  10. Springboot整合RabbitMQ,包含direct,topic,fanout三种模式的整合
  11. 【嵌入式】牧马人G3 电子竞技鼠标拆解分析
  12. python弧度角度转换程序_python 弧度与角度互转实例
  13. css音量调节,CSS3 音量调节旋钮
  14. 【2022/1/12】think-swoole使用教程
  15. 目标检测经典论文——Faster R-CNN论文翻译:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Net
  16. House of orange
  17. 面试经历——2月17日
  18. 计算机科学引论英文精编pdf,计算机科学引论英文版.pdf
  19. JS内置对象及其用法总结
  20. 【毕业设计】基于stm32的便携用电功率统计系统 -物联网 嵌入式 单片机

热门文章

  1. 中机60年,引领中国工业走进智能门户云平台时代|中机智库
  2. mac远程链接windows桌面
  3. android 6.0蓝牙服务开启,Android应用开发之Android 6.0 蓝牙搜索不到设备原因,MIUI权限申请机制方法...
  4. 双向链表的删除和插入
  5. IT行业工作的就业方向
  6. Python发送微信消息(文字、图片、文件)给指定好友和微信群,零基础可看懂(附源码和教程)
  7. linux 编辑my.cnf,linux下 vi命令编辑/etc/my.cnf
  8. 阿里云域名 ssl免费的到期了
  9. 5G+V2X自动驾驶新趋势
  10. 科技岗位日趋增长,能成为女性职业选择的新可能吗?