# coding = utf-8
# 500强企业爬取 --爬取《财富》网页上的500强企业信息
# writer: Shihan Wongimport requests , bs4
from bs4 import BeautifulSoup# getHTMLtext函数功能:利用requests模块获得HTML代码 ,形式参数url为网页统一资源定位符
def getHTMLtext(url):try:re = requests.get(url ,timeout = 30)                        # 获取HTNL源码re.raise_for_status()                                       # 查看状态re.encoding = re.apparent_encoding                          # 替换编码return re.text                                              # 返回HTML文本except Exception as e:                                          # 如果错误,输出eprint(e)# saveCompany函数功能:利用BeautifulSoup类解析HTML文本,然后保存解析后的信息
def sveCompany(clist , html):                                       # 形参clist为用户定义用来储存爬取信息的列表,html为之前返回的HTML文本soup = BeautifulSoup(html , "html.parser")                      # 解析HTML文本for tr in soup.find('tbody').children:                          # 500强信息经查看后发现在'tbody'标签内,遍历其子标签if isinstance(tr , bs4.element.Tag):                        # 判断tr是否为标签tds = tr('td')                                          # 500强信息'tbody'标签的子标签'tr'标签的子标签'td'内,遍历返回子标签列表后保存在变量tds内clist.append([tds[0].string , tds[2].string , tds[5].string])                       # 将爬取的信息保存在设定好的列表内,第一个为排名,二为企业名称,三为国家# printCompany函数功能:输出保存后的企业信息
def printCompany(clist , num):                                      # 形参clist为之前保存得企业信息,num为用户输入的数字,控制打印的企业数量print("{0:^10}\t{1:{3}^50}\t{2:{3}^5}".format("排名" , "企业名称" , "国家" , chr(12288)))    # 打印输出标题for i in range(num):u = clist[i]print("{0:^10}\t{1:{3}^50}\t{2:{3}^5}".format(u[0] , u[1] , u[2] , chr(12288)))        # 打印输出企业信息def main():                                                           # 定义主函数,调用getHTMLtext(),saveCompany(),printCompany()函数sinfo = []url = 'http://www.fortunechina.com/fortune500/c/2019-07/22/content_339535.htm'html = getHTMLtext(url)sveCompany(sinfo , html)printCompany(sinfo , 500)main()

后面的的国家字段我没有弄好,一直没有给它对其,如果有其他同学知道怎么给它对其看到这文章的话,希望可以在下方告诉我,一同进步。

财富2019年世界500强企业爬虫(爬虫学习实践项目)相关推荐

  1. 橙知学堂3.0运营思路揭秘-世界500强企业的在线学习平台

    阳光城集团股份有限公司,是以房地产开发为主业的全国化品牌企业,业务涵盖地产开发.商业运营以及物业服务三大领域.阳光城集团凭借快速提升的企业综合实力及品牌价值,蝉联2017中国房地产开发企业500强TO ...

  2. 爬虫小实战(selenium) 数据小分析(pywebio、pyecharts)python分析写在网页 爬取2021年世界500强企业

     爬取数据 通过selenium爬取2021年世界500强企业数据 import time import requests import csv from selenium import webdri ...

  3. 一家世界500强企业为什么还要做不赚钱的生意?

    说起联想,可以说是一个家喻户晓的品牌,在<财富>杂志发布的2016年世界企业500强排行榜中联想位列202名,营收达到3098.26亿元.其经营范围除了涉及我们都熟悉的个人电脑.手机之外还 ...

  4. 世界500强企业中的中国企业

    在世界500强企业中,有很多是中国企业.根据<财富>杂志发布的2021年世界500强排名,中国企业共有122家上榜,占总数的24%,其中有包括中国石化.中国石油.中国海洋石油.中国联通.中 ...

  5. 力作推荐!!!!   防线:企业Linux安全运维理念和实战(向世界500强企业学习Linux安全管理与运维之道)...

    防线:企业Linux安全运维理念和实战(向世界500强企业学习Linux安全管理与运维之道)      新书发售 http://product.dangdang.com/product.aspx?pr ...

  6. 严昊:25岁接手世界500强企业,公司一年净赚80亿

    严昊实际上并不是太平洋建设集团的创始人,整个集团的创始人实际上是他的父亲严介和.严昊则是在25岁之时接手这个世界500强的庞然大物.看到这里,很多人可能会认为,严昊实际上只是一个命好的富二代而已,他的 ...

  7. IT类公司世界500强企业

    注:本文所采用数据为2016年的,2017年的榜单数据及简评在此: http://blog.csdn.net/wang7807564/article/details/78982830 广义上的IT指的 ...

  8. 跟任何人都聊得来—最受世界500强企业欢迎的沟通课(二)

    跟任何人都聊得来-最受世界500强企业欢迎的沟通课 接着前面第一到五章:http://blog.csdn.net/wenzhi20102321/article/details/74097328 第六章 ...

  9. 众多世界500强企业集聚第二届数博会,数字产业大幕即将开启!

    作为数字中国建设峰会的重要组成部分和数字产品展示窗口,第二届中国国际数字产品博览会(以下简称"数博会")将于7月22日-26日(其中,7月22日-7月23日为专业观众日,7月23日 ...

最新文章

  1. 结构(struct)
  2. 关于 android listview 加载数据错位(错乱)问题
  3. api自动化_如何在不增加人员的情况下自动化API安全程序
  4. java生成flash_web-flash发布了代码生成插件
  5. 设计模式(九)——适配器模式
  6. python删除数据库_用Python删除Cosmos数据库文档
  7. 理解Java集合框架里面的的transient关键字
  8. 我将要关注的kaggle比赛
  9. go 的时间与时间戳计算
  10. C++获取当前所有进程的完整路径
  11. 力扣113. 路径总和 II(JavaScript)
  12. 网络通信 MAC与ARP
  13. UWA周年庆,福利分发,免费赠送专业版性能报告!
  14. 20155207第十章课下测试补交
  15. C#破解access数据库密码方法
  16. 如何使用phpDesigner 编写一个表格
  17. 毕业设计资料python RCQ读者书库程序源码加文档
  18. XLua官方教程 06 热更新实例 hotfix样例
  19. Python调用PyMol
  20. 网页端、移动端导航设计模式全解

热门文章

  1. Java Web应用开发——作业一
  2. 深度解析企业OA办公系统的好处有哪些?
  3. nvm环境安装和 node 的基本使用
  4. Failed to find provider info for xxx,Unknown URL content 的问题归因和解决办法
  5. mysql 空集 赋值_MySQL简单复制问题:’show master status’产生’空集’?
  6. 数值计算笔记之迭代法的收敛性
  7. python提取前几行数据_python读取文件的前几行
  8. 广州租房提取住房公积金攻略
  9. velocity模板引擎-vm语法整理
  10. Uni项目启动微信、QQ、淘宝、抖音、京东等APP的方法(转载)