python爬虫 网页表格
from bs4 import BeautifulSoup
import requests
import csv
import bs4 #检查url地址
def check_link(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: print('无法链接服务器!!!') #爬取资源
def get_contents(ulist,rurl): soup = BeautifulSoup(rurl,'lxml') trs = soup.find_all('tr') for tr in trs: ui = [] for td in tr: ui.append(td.string) ulist.append(ui) #保存资源
def save_contents(urlist): with open("C:/Users/Administrator/paichong/2019年中国企业500强排行榜.csv",'w') as f: writer = csv.writer(f) #writer.writerow(['2016年中国企业500强排行榜']) for i in range(len(urlist)): writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) def main(): urli = [] url = "http://www.maigoo.com/news/463071.html" rs = check_link(url) get_contents(urli,rs)print(urli)save_contents(urli) main()
参考:https://blog.csdn.net/zhuxunyuoyi/article/details/75210705?locationNum=9&fps=1
python爬虫 网页表格相关推荐
- python爬虫网页表格_python网页表格
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 以网页表格为例:https:www.kuaidaili.comfree该网站数据 ...
- 硬核来袭!!!一篇文章教你入门Python爬虫网页解析神器——BeautifulSoup详细讲解
文章目录 一.BeautifulSoup介绍 二.安装 三.bs4数据解析的原理 四.bs4 常用的方法和属性 1.BeautifulSoup构建 1.1 通过字符串构建 1.2 从文件加载 2.Be ...
- python提取网页表格信息_python 提取网页表格数据库数据库
python开源工具列表[持续更新] 以下是个人在工作中整理的一些python wheel,供参考.这个列表包含与网页抓取和数据处理的Python库 网络 通用urllib -网络库(stdlib). ...
- python读取网页表格数据库_python 提取网页表格数据库数据库
python开源工具列表[持续更新] 以下是个人在工作中整理的一些python wheel,供参考.这个列表包含与网页抓取和数据处理的Python库 网络 通用urllib -网络库(stdlib). ...
- python爬虫网页中的图片_Python爬虫爬取一个网页上的图片地址实例代码
本文实例主要是实现爬取一个网页上的图片地址,具体如下. 读取一个网页的源代码: import urllib.request def getHtml(url): html=urllib.request. ...
- HTML的学习---为了python爬虫网页
之前学习了xml知识,使用python解析.创建和更改xml文件,现在需要用python爬虫新浪博客的文章,所以进一步学习下HTML. XML 指可扩展标记语言(EXtensible Markup L ...
- python 爬虫网页登陆
相信各位在写python爬虫的时候会在爬取网站时遇到一些登陆的问题,比如说登陆时遇到输入验证码比如说登录时遇到图片拖拽等验证,如何解决这类问题呢?一般有两种方案. 使用cookie登陆 我们可以通过使 ...
- python爬虫网页中的图片_Python爬取网页中的图片(搜狗图片)详解
前言 最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: 我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片http://pic.s ...
- python爬虫网页图片显示不出来_用Python爬取20万条网页美女图片,两只眼睛 都看不过来了!...
前言 最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载 本地下载 我们这里以sogou作为爬取的对象. 首先 ...
最新文章
- sass和less的优缺点
- 在windows和linux下如何查看80端口占用情况?是被哪个进程占用?如何终止等
- Nacos源码InstanceController
- 使用SAP WebIDE开发SAP Fiori Worklist应用消费OData服务
- 野火linux底板设计,野火STM32F767套件(底板+核心板)
- 计算机高效课堂建设,打造职业学校计算机高效课堂.doc
- UIImageView01
- typeorm 生成实体类_android常用orm框架greenDAO创建表生成实体类
- LATEX数学式哪种字号比较漂亮
- 在ionic2中集成swiper插件
- d触发器q端的输出波形_如果把D触发器的输出Q'反馈连接到输入D,则输出Q的脉冲波形的频率为CP脉冲频率f的 。...
- 【解决idea谷歌翻译失败问题】
- 拼多多关键词搜索接口,商品分类ID搜索商品列表接口,关键词搜索商品销量接口,拼多多销量API接口
- 全国公共DNS服务器IP地址汇总
- Dapper使用技巧和基础CRUD
- RabbitMQ相关图形,dljd
- 数据分析SQL环比增长率、同比增长率
- thingworx学习
- 新媒体运营:23种免费获取流量的运营套路 ,你知道几种? 黎想
- 【开源】SoDiaoEditor 可能是目前最好用的开源电子病历编辑器(B/S架构)