import requests
from urllib.request import urlopen, Request
from bs4 import BeautifulSoup
import re
# 将操作码保存为txt文件
def text_save(filename, data):  # filename为写入txt文件的路径,data为要写入数据列表.file = open(filename, 'w', encoding = 'utf-8')for i in range(len(data)):s = str(data[i]).replace('[', '').replace(']', '')  # 去除[],这两行按数据不同,可以选择s = str(data[i]).replace('(', '').replace(')', '')s = s.replace("'", '').replace(',', '') + '\n'  # 去除单引号,逗号,每行末尾追加换行符file.write(s)file.close()print("保存文件成功")headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'
}#爬虫[Requests设置请求头Headers],伪造浏览器
# 核心爬取代码
url = "http://www.fortunechina.com/fortune500/c/2020-08/10/content_372148.htm"
ret = Request(url,headers=headers)
html = urlopen(ret)
bs = BeautifulSoup(html,"html.parser")
tr = bs.find('tbody').find_all('tr')
listall=[]
for j in tr[0:]:td = j.find_all('td')#td表格rank = td[0].get_text().strip()         #遍历排名corporate_name = td[1].get_text().strip() #遍历公司名称marketing_revenue = td[2].get_text().strip()        #遍历营销收入profit = td[3].get_text().strip()    #遍历利润country = td[4].get_text().strip()           #遍历国家list = "{0:<10}\t{1:<20}\t{2:<20}\t{3:<20}\t{4:<20}".format(rank, marketing_revenue, profit, country, corporate_name, chr(12288))listall.append(list)list = []text_save('Wealth Rankings.txt', listall)

Python爬虫学习之爬取2020年《财富》世界500强排行榜写入txt文件相关推荐

  1. Python爬虫学习笔记 -- 爬取糗事百科

    Python爬虫学习笔记 -- 爬取糗事百科 代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...

  2. Python爬虫学习之爬取淘宝搜索图片

    Python爬虫学习之爬取淘宝搜索图片 准备工作 因为淘宝的反爬机制导致Scrapy不能使用,所以我这里是使用selenium来获取网页信息,并且通过lxml框架来提取信息. selenium.lxm ...

  3. 为了部落 来自艾泽拉斯勇士的python爬虫学习心得 爬取大众点评上的各种美食数据并进行数据分析

    为了希尔瓦娜斯 第一个爬虫程序 csgo枪械数据 先上代码 基本思想 问题1 问题2 爬取大众点评 URL分析 第一个难题 生成csv文件以及pandas库 matplotlib.pyplot库 K- ...

  4. 2.python爬虫实战:爬取近5年的中国大学排行榜信息【Python】(测试代码+api例程)

    目录 API说明: 思路 注意事项 完整代码 总结 欢迎关注 『Python』 系列,持续更新中 欢迎关注 『Python』 系列,持续更新中 爬取近5年的中国大学排行榜信息,在python爬虫爬取2 ...

  5. python爬虫学习之爬取超清唯美壁纸

    简介 壁纸的选择其实很大程度上能看出电脑主人的内心世界,有的人喜欢风景,有的人喜欢星空,有的人喜欢美女,有的人喜欢动物.然而,终究有一天你已经产生审美疲劳了,但你下定决定要换壁纸的时候,又发现网上的壁 ...

  6. python爬虫学习一--爬取网络小说实例

    最近疫情猖獗,长假憋在家里实在无聊,早上突然看了一篇python爬虫文章,当场决定试验一下,参照了一下别人的案例,自己各种踩坑捣鼓了好几个小时,终于成功最后把具体步骤和注意点分享给大家: 1.Pyth ...

  7. python爬虫学习之爬取全国各省市县级城市邮政编码

    实例需求:运用python语言在ip查询 查ip 网站ip查询 同ip网站查询 iP反查域名 iP查域名 同ip域名网站爬取全国各个省市县级城市的邮政编码,并且保存在excel文件中 实例环境:pyt ...

  8. python爬虫学习之爬取某网站上的视频

    """ 实现步骤:发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据 1.发送请求,对于视频信息数据包发 ...

  9. Python爬虫学习3----xpath爬取哔哩哔哩排行榜

    爬取哔哩哔哩月排行榜,并输出csv格式文件. import requests import lxml.html import csvsource = requests.get('https://www ...

最新文章

  1. ArcGIS水文分析实战教程(9)雨量计算与流量统计
  2. log4j2配置实例[按小时记录日志文件]
  3. Android旋转视频工具类,Android开发实现的IntentUtil跳转多功能工具类【包含视频、音频、图片、摄像头等操作功能】...
  4. linux64平台上编译32位程序: GCC编译选项 -m64 -m32 -mx32
  5. [Android]第四次作业
  6. vue --- vue-router
  7. layui内置loading等待加载
  8. c语言栈的实现以及操作_C++语言实现顺序栈
  9. 每日算法系列【LeetCode 495】提莫攻击
  10. java stax_XML编程总结(五)——使用StAX接口操作xml
  11. WinCE偶尔不能正常启动(内存清理)
  12. PIP(Python包管理工具)-Mac环境下安装
  13. A little knowledge point every day,一起学python
  14. CATIA转的STP打开什么都没有_ProE打开Creo7.0模型文件的方法视频教程
  15. 智慧城管管理平台和监控系统建设方案
  16. 解析互联网广告术语 CPM、CPC、CPA、CPS、CPL、CPR 是什么意思
  17. 1183 电力(点的双连通分量--求解割点)
  18. 2016年度中国手游报告:梦幻西游手游是最大赢家
  19. 机器学习中的特征重要性 Feature Importance
  20. 使用自定义注解实现接口参数校验

热门文章

  1. Java String split方法性能分析
  2. uni-app swiper设置显示面板指示点的背景颜色与选中颜色
  3. 点亮一个esp32 的led
  4. 软件测试实验三 修正条件/判定覆盖测试设计
  5. 栈溢出 栈内存溢出_全栈溢出开发人员
  6. 实时同步sersync
  7. 已解决:Win10下解决matplotlib中文乱码-亲测有效
  8. 视错觉结合UI:从一个看似简单的自定义控件说起
  9. L3-008 喊山 (30 分) 【 BFS 】
  10. FreeMarker概述