python网上批量下载表格_python读取表格链接批量下载Html文件
#导入库
import urllib.request
#获取单个html文件内容
def getHtml(url):
html=urllib.request.urlopen(url).read()
return html
#将html文件重新命名,保存到指定位置
def saveHtml(file_name,file_content):
#注意Windows文件命名的禁用符,比如/
with open(file_name.replace('/','_')+".html","wb") as f:
f.write(file_content)
#写文件用bytes而不是str,所以要转码
#读取csv格式的文件,只读
f = open("commed.csv","r")
count=1
#读取每一行的数据,每一行的数据逐一处理
for line in f:
count=count+1
a=[]
a.append(line.strip().split(","))
site=a[0][0]
if len(site) > 10:
#满足条件后,将读取的每一个网址信息,进行访问保存,重新命名保存到本地
title="commed\\"+str(count)+"行"+a[0][1]
html=getHtml(site)
saveHtml(title,html)
#打印输出确认是否保存成功,显示当前处理数据的行数
print("下载成功"+"===第"+str(count)+"行")
#关闭文件读取函数
f.close()
python网上批量下载表格_python读取表格链接批量下载Html文件相关推荐
- python 读取 word 表格_python读取word表格
python调用com,如何完成word表格操作 word中doc这个格式的文件是微软特有格式,微软没有向外公开任何的api接口文档,只能通过微软提供的OLE组件来提其COM接口,只要你的机器上安装了 ...
- python 读取excel表格_Python读取Excel表格
本文将教大家如何使用Python来读取Excel表,学会这个技能对提高工作效率会十分有帮助. 目录: 1.安装Python读excel模块--xlrd 2.准备表格内容 3.编写python代码并运行 ...
- python写入excel表格_Python读取写入Excel表格
原博文 2019-08-27 15:35 − Python操作Excel,主要用到xlrd和xlwt这两个库,即xlrd是读Excel,xlwt是写Excel的库 1.Python读取Excel表格 ...
- python写表格_python写入表格
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! import xlwt #导入xlwt 库 book =xlwt.workboo ...
- python取出表格_python提取表格
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 用python提取pdf文件表格中的数据,这里我说的是,只提取pdf文件中表格中 ...
- python爬虫网页表格_python网页表格
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 以网页表格为例:https:www.kuaidaili.comfree该网站数据 ...
- python爬虫快速下载图片_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...
Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...
- python怎么读出当前时间_Python读取Excel,日期列读出来是数字的处理
Python读取Excel,里面如果是日期,直接读出来是float类型,无法直接使用. 通过判断读取表格的数据类型ctype,进一步处理. 返回的单元格内容的类型有5种: ctype: 0 empty ...
- python爬虫爬取图片代码_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...
Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...
最新文章
- 解决不了bug先放着,这里有40条提升编程技能小妙招
- CSS3选择器 :read-only选择器 CSS3选择器 :read-write选择器
- 4-玩转数据结构-链表
- OpenCV-Python 相机校准和消除畸变
- jmeter 取json值_JMeter中JSON数据处理
- XML:DTD:Schema
- MongoDB Java
- 注册表服务器设置mtu,自己修改注册表优化宽带网设置
- matlab函数句柄介绍
- mysql msdtc 不支持_MSDTC 服务意外地在 Windows Server 2012 或 Windows Server 2008 R2 SP1 中停止...
- windows设置路径Path
- 用Python爬取网易云音乐全部歌手信息(歌手id和歌手名字)
- ubuntu 18.04安装pycharm及编译环境配置
- vendor分区的库无法调用system分区的库
- 一寸照片快照多少钱_去照相馆拍照一般多少钱
- rust闪退修复工具_Rust的错误处理
- C语言中的光标定位函数
- 专科计算机毕业论文范文 致谢,专科毕业论文致谢范文(通用6篇)
- 矩阵指数 matlab,空间计量-矩阵指数空间模型
- 银行卡编码规则及检验算法详解
热门文章
- “爆粗口”的李想和焦虑的理想汽车:不被认可是主因,标签难摘除
- 2020版IDEA安装教程
- uni-app中如何引入阿里iconfont图标字体(详细教程)
- OpenCV Error: Unknown error code -49 (Input file is empty) in cvOpenFileStorage
- 什么是Transformer?| 小白深度学习入门
- 企业级开源邮件系统搭建的全过程
- 利用matlab和SDR实现LTE信号的采集以及帧同步,MIB解码
- Google编程挑战赛“创新杯”全球学生科技大赛(大赛系列第13期)
- Java SE_封装、继承、object类、super-this关键字、方法重写、多态、instanceof、类型转换
- Pandas统计计数value_counts()的使用