财富2019年世界500强企业爬虫(爬虫学习实践项目)
# coding = utf-8
# 500强企业爬取 --爬取《财富》网页上的500强企业信息
# writer: Shihan Wongimport requests , bs4
from bs4 import BeautifulSoup# getHTMLtext函数功能:利用requests模块获得HTML代码 ,形式参数url为网页统一资源定位符
def getHTMLtext(url):try:re = requests.get(url ,timeout = 30) # 获取HTNL源码re.raise_for_status() # 查看状态re.encoding = re.apparent_encoding # 替换编码return re.text # 返回HTML文本except Exception as e: # 如果错误,输出eprint(e)# saveCompany函数功能:利用BeautifulSoup类解析HTML文本,然后保存解析后的信息
def sveCompany(clist , html): # 形参clist为用户定义用来储存爬取信息的列表,html为之前返回的HTML文本soup = BeautifulSoup(html , "html.parser") # 解析HTML文本for tr in soup.find('tbody').children: # 500强信息经查看后发现在'tbody'标签内,遍历其子标签if isinstance(tr , bs4.element.Tag): # 判断tr是否为标签tds = tr('td') # 500强信息'tbody'标签的子标签'tr'标签的子标签'td'内,遍历返回子标签列表后保存在变量tds内clist.append([tds[0].string , tds[2].string , tds[5].string]) # 将爬取的信息保存在设定好的列表内,第一个为排名,二为企业名称,三为国家# printCompany函数功能:输出保存后的企业信息
def printCompany(clist , num): # 形参clist为之前保存得企业信息,num为用户输入的数字,控制打印的企业数量print("{0:^10}\t{1:{3}^50}\t{2:{3}^5}".format("排名" , "企业名称" , "国家" , chr(12288))) # 打印输出标题for i in range(num):u = clist[i]print("{0:^10}\t{1:{3}^50}\t{2:{3}^5}".format(u[0] , u[1] , u[2] , chr(12288))) # 打印输出企业信息def main(): # 定义主函数,调用getHTMLtext(),saveCompany(),printCompany()函数sinfo = []url = 'http://www.fortunechina.com/fortune500/c/2019-07/22/content_339535.htm'html = getHTMLtext(url)sveCompany(sinfo , html)printCompany(sinfo , 500)main()
后面的的国家字段我没有弄好,一直没有给它对其,如果有其他同学知道怎么给它对其看到这文章的话,希望可以在下方告诉我,一同进步。
财富2019年世界500强企业爬虫(爬虫学习实践项目)相关推荐
- 橙知学堂3.0运营思路揭秘-世界500强企业的在线学习平台
阳光城集团股份有限公司,是以房地产开发为主业的全国化品牌企业,业务涵盖地产开发.商业运营以及物业服务三大领域.阳光城集团凭借快速提升的企业综合实力及品牌价值,蝉联2017中国房地产开发企业500强TO ...
- 爬虫小实战(selenium) 数据小分析(pywebio、pyecharts)python分析写在网页 爬取2021年世界500强企业
爬取数据 通过selenium爬取2021年世界500强企业数据 import time import requests import csv from selenium import webdri ...
- 一家世界500强企业为什么还要做不赚钱的生意?
说起联想,可以说是一个家喻户晓的品牌,在<财富>杂志发布的2016年世界企业500强排行榜中联想位列202名,营收达到3098.26亿元.其经营范围除了涉及我们都熟悉的个人电脑.手机之外还 ...
- 世界500强企业中的中国企业
在世界500强企业中,有很多是中国企业.根据<财富>杂志发布的2021年世界500强排名,中国企业共有122家上榜,占总数的24%,其中有包括中国石化.中国石油.中国海洋石油.中国联通.中 ...
- 力作推荐!!!! 防线:企业Linux安全运维理念和实战(向世界500强企业学习Linux安全管理与运维之道)...
防线:企业Linux安全运维理念和实战(向世界500强企业学习Linux安全管理与运维之道) 新书发售 http://product.dangdang.com/product.aspx?pr ...
- 严昊:25岁接手世界500强企业,公司一年净赚80亿
严昊实际上并不是太平洋建设集团的创始人,整个集团的创始人实际上是他的父亲严介和.严昊则是在25岁之时接手这个世界500强的庞然大物.看到这里,很多人可能会认为,严昊实际上只是一个命好的富二代而已,他的 ...
- IT类公司世界500强企业
注:本文所采用数据为2016年的,2017年的榜单数据及简评在此: http://blog.csdn.net/wang7807564/article/details/78982830 广义上的IT指的 ...
- 跟任何人都聊得来—最受世界500强企业欢迎的沟通课(二)
跟任何人都聊得来-最受世界500强企业欢迎的沟通课 接着前面第一到五章:http://blog.csdn.net/wenzhi20102321/article/details/74097328 第六章 ...
- 众多世界500强企业集聚第二届数博会,数字产业大幕即将开启!
作为数字中国建设峰会的重要组成部分和数字产品展示窗口,第二届中国国际数字产品博览会(以下简称"数博会")将于7月22日-26日(其中,7月22日-7月23日为专业观众日,7月23日 ...
最新文章
- 结构(struct)
- 关于 android listview 加载数据错位(错乱)问题
- api自动化_如何在不增加人员的情况下自动化API安全程序
- java生成flash_web-flash发布了代码生成插件
- 设计模式(九)——适配器模式
- python删除数据库_用Python删除Cosmos数据库文档
- 理解Java集合框架里面的的transient关键字
- 我将要关注的kaggle比赛
- go 的时间与时间戳计算
- C++获取当前所有进程的完整路径
- 力扣113. 路径总和 II(JavaScript)
- 网络通信 MAC与ARP
- UWA周年庆,福利分发,免费赠送专业版性能报告!
- 20155207第十章课下测试补交
- C#破解access数据库密码方法
- 如何使用phpDesigner 编写一个表格
- 毕业设计资料python RCQ读者书库程序源码加文档
- XLua官方教程 06 热更新实例 hotfix样例
- Python调用PyMol
- 网页端、移动端导航设计模式全解
热门文章
- Java Web应用开发——作业一
- 深度解析企业OA办公系统的好处有哪些?
- nvm环境安装和 node 的基本使用
- Failed to find provider info for xxx,Unknown URL content 的问题归因和解决办法
- mysql 空集 赋值_MySQL简单复制问题:’show master status’产生’空集’?
- 数值计算笔记之迭代法的收敛性
- python提取前几行数据_python读取文件的前几行
- 广州租房提取住房公积金攻略
- velocity模板引擎-vm语法整理
- Uni项目启动微信、QQ、淘宝、抖音、京东等APP的方法(转载)