爬虫进行isca-speech分会场的pdf批量下载部分问题解决
首先目标进行分会场的文件下载
如:
这里我们需要将该页面的文件进行下载
一共三步:
- 第一步,将整个页面进行获取保存
- 第二步,保存后的页面,将其中我们需要的超链接进行获取和保存
- 第三步,将第二步骤的超链接list,进行文件的下载
致此文件下载完毕
部分问题描述
遇到证书问题
就是那个SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED]
import ssl
ssl._create_default_https_context=ssl._create_unverified_context
上面的还没有用的时候:可以尝试加入类似下面的verify =False
r = requests.get(url=list_link[i], verify=False)
正文部分由三个函数组成,其中都有注释,请自行消化
获取网页
#函数是获取到该网页信息
def getHteml(url_name):# post请求流程处理# urlpost_url = url_name# 进行请求发送#当爬取网站时候,显示证书验证问题如下,加入verify=False就可以了#问题描述ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] certi,加入了ssl._create_default_https_context = ssl._create_unverified_context也没用response = requests.get(url=post_url,verify=False)html=response.textreturn html
获取超链接
def getherf(html,id):# 使用BeautifulSoup函数解析传入的htmlbt = BeautifulSoup(html, "html.parser")title = bt.find('div',id=id).find_all('a')set_of_link=[]for i in title:link = i.get('href')print()if str(link).find('html')==-1:#这里加前缀是因为实际的是加了绝对路径的,所以这里需要加一串字符set_of_link.append('https://www.isca-speech.org/archive/Interspeech_2020/'+link)return set_of_link
开始下载
def begin_down(list_link,dir_name):file_number=1#传进来的是列表dir_name=dir_name.replace(':','')os.mkdir("./" + dir_name)for i in range(0,len(list_link)):#创建的都是不同的,比如先到该列表下的包,然后进行下载,文件名从1开始# 创建一层目录fn = open('./'+dir_name+'/'+str(file_number)+'.pdf', 'wb')file_number=file_number+1r = requests.get(url=list_link[i], verify=False)fn.write(r.content)fn.close()
启动样例
html = getHteml("https://www.isca-speech.org/archive/Interspeech_2020/")#获取到该页面
#id='ASR Neural Network Architectures I'#你需要下载的系列的名称
id='Speech Synthesis: Neural Waveform Generation I'
result = getherf(html,id)#需要下载的文件目录
begin_down(result,id)
诸君共勉
爬虫进行isca-speech分会场的pdf批量下载部分问题解决相关推荐
- pdf批量下载工具制作_使用asyncio异步高速下载pdf
文章目录 前言 零.设计思路 一.核心代码 (一)tkinter框架代码 (二)使用asyncio下载的代码 二.完整代码 三.打包成exe文件 前言 最近在学习进阶的python,学到tkin ...
- 爬虫小案例:基于Bing关键词批量下载图片(第二版)
一.需求: 基于Bing网站,输入关键词,批量下载图片保存到本地 二.代码展示: import requests from lxml import etree import os from multi ...
- 爬虫小案例:基于Bing关键词批量下载图片
一.需求: 基于Bing网站,输入关键词,批量下载图片保存到本地 二.演示: 三.直接上代码 import os import urllib.request import urllib.parse f ...
- Python爬虫 - wallhaven任意页面下的壁纸批量下载
基于Python 任意页面下的壁纸批量下载 github Maxpagenum 爬取页数 fpath 保存路径 url 基础地址 import requests import re import ti ...
- MODIS数据批量下载中断问题解决——以MOD13Q1为例
MODIS-NDVI数据MOD13Q1(250米,16天) 下载过程及问题解决 Terra 中分辨率成像光谱仪 (MODIS) 植被指数 (MOD13Q1) 第 6 版数据每 16 天以 250 米 ...
- 从零开始写Python爬虫 --- 1.5 爬虫实践: 笔趣阁小说批量下载
目标网站 首先来看看我们排行榜的地址: http://www.qu.la/paihangbang/ 我们的目的很明确:找到各类排行旁的的每一部小说的名字和在该网站的链接. 网站分析 首先观察一下网页的 ...
- 经济日报pdf批量下载整合
from PyPDF2 import PdfFileMergermerger = PdfFileMerger()input1 = open("G:\\报纸\经济日报\\2019082701_ ...
- Python爬虫实战,Request+urllib模块,批量下载爬取飙歌榜所有音乐文件
前言 今天给大家介绍的是Python爬取飙歌榜所有音频数据并保存本地,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是 ...
- img绝对路径图片显示_使用python爬虫去风景图片网站批量下载图片
使用python爬虫(requests,BeautifulSoup)去风景图片网站批量下载图片 1.写代码背景: 今天闲来无事,想弄点图片放到电脑,方便以后使用,故去百度查找一些风景图片网站,发现图片 ...
最新文章
- Elasticsearch之深入了解Search的运行机制
- [云炬小程序实战笔记] 第1章 全新版:初识微信小程序
- 【Java脚本引擎】脚本引擎执行JavaScript代码
- 支持向量机python代码_Python中的支持向量机SVM的使用(有实例)
- 为什么gets如此危险?
- 明年起网剧可参评白玉兰奖 你期待哪部网剧上榜?
- java多线程 游戏_java利用多线程和Socket实现猜拳游戏
- swift - 关于title问题
- android内存泄漏MAT,利用Android Studio、MAT对Android进行内存泄漏检测
- java真题_2017年JAVA考试试题及答案
- Linux关机、开机、重启、定时重启、定时关机详细命令(shutdown命令)
- 软件性能分析与优化详解
- 软件园区网络设计之网络总体设计
- RPLIDAR A2 Windows 下开发
- 单页网站快速创富秘籍
- JGG专刊征稿:时空组学
- 利用2阶分数阶微分掩模的边缘检测(Matlab代码实现)
- 详解电脑死机没反应怎么解决
- solidity 入门
- R语言eval,parse批量生成变量并赋值
热门文章
- 数据结构与算法基础(青岛大学-王卓)(4)
- win10环境变量在哪设置?教你设置win10环境变量的方法
- 磨砂服务器波特率修改,完整word版MOXA串口服务器设置步骤.doc
- win7怎么设置计算机的性能,win7怎么提升电脑性能
- [活动]微信小程序悬赏通缉令——你晒程序我送礼
- win10拨号错误 代码720
- 基于javaweb的毕业设计毕业论文管理系统(java+ssm+jsp+tomcat+mysql)
- 一款简单易用的GIS地图数据浏览器
- 使用X265编码视频
- android 竞品分析工具对比