首先目标进行分会场的文件下载

如：

这里我们需要将该页面的文件进行下载

一共三步：

第一步，将整个页面进行获取保存
第二步，保存后的页面，将其中我们需要的超链接进行获取和保存
第三步，将第二步骤的超链接list，进行文件的下载

致此文件下载完毕

部分问题描述

遇到证书问题
就是那个SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED]

import ssl
ssl._create_default_https_context=ssl._create_unverified_context

上面的还没有用的时候：可以尝试加入类似下面的verify =False

r = requests.get(url=list_link[i], verify=False)

正文部分由三个函数组成，其中都有注释，请自行消化

获取网页

#函数是获取到该网页信息
def getHteml(url_name):# post请求流程处理# urlpost_url = url_name# 进行请求发送#当爬取网站时候，显示证书验证问题如下，加入verify=False就可以了#问题描述ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] certi，加入了ssl._create_default_https_context = ssl._create_unverified_context也没用response = requests.get(url=post_url,verify=False)html=response.textreturn html

获取超链接

def getherf(html,id):# 使用BeautifulSoup函数解析传入的htmlbt = BeautifulSoup(html, "html.parser")title = bt.find('div',id=id).find_all('a')set_of_link=[]for i in title:link = i.get('href')print()if str(link).find('html')==-1:#这里加前缀是因为实际的是加了绝对路径的，所以这里需要加一串字符set_of_link.append('https://www.isca-speech.org/archive/Interspeech_2020/'+link)return set_of_link

开始下载

def begin_down(list_link,dir_name):file_number=1#传进来的是列表dir_name=dir_name.replace(':','')os.mkdir("./" + dir_name)for i in range(0,len(list_link)):#创建的都是不同的，比如先到该列表下的包，然后进行下载,文件名从1开始# 创建一层目录fn = open('./'+dir_name+'/'+str(file_number)+'.pdf', 'wb')file_number=file_number+1r = requests.get(url=list_link[i], verify=False)fn.write(r.content)fn.close()

启动样例

html = getHteml("https://www.isca-speech.org/archive/Interspeech_2020/")#获取到该页面
#id='ASR Neural Network Architectures I'#你需要下载的系列的名称
id='Speech Synthesis: Neural Waveform Generation I'
result = getherf(html,id)#需要下载的文件目录
begin_down(result,id)

诸君共勉

爬虫进行isca-speech分会场的pdf批量下载部分问题解决相关推荐

pdf批量下载工具制作_使用asyncio异步高速下载pdf
文章目录前言零.设计思路一.核心代码 (一)tkinter框架代码 (二)使用asyncio下载的代码二.完整代码三.打包成exe文件前言最近在学习进阶的python,学到tkin ...
爬虫小案例：基于Bing关键词批量下载图片（第二版）
一.需求: 基于Bing网站,输入关键词,批量下载图片保存到本地二.代码展示: import requests from lxml import etree import os from multi ...
爬虫小案例：基于Bing关键词批量下载图片
一.需求: 基于Bing网站,输入关键词,批量下载图片保存到本地二.演示: 三.直接上代码 import os import urllib.request import urllib.parse f ...
Python爬虫 - wallhaven任意页面下的壁纸批量下载
基于Python 任意页面下的壁纸批量下载 github Maxpagenum 爬取页数 fpath 保存路径 url 基础地址 import requests import re import ti ...
MODIS数据批量下载中断问题解决——以MOD13Q1为例
MODIS-NDVI数据MOD13Q1(250米,16天) 下载过程及问题解决 Terra 中分辨率成像光谱仪 (MODIS) 植被指数 (MOD13Q1) 第 6 版数据每 16 天以 250 米 ...
从零开始写Python爬虫 --- 1.5 爬虫实践：笔趣阁小说批量下载
目标网站首先来看看我们排行榜的地址: http://www.qu.la/paihangbang/ 我们的目的很明确:找到各类排行旁的的每一部小说的名字和在该网站的链接. 网站分析首先观察一下网页的 ...
经济日报pdf批量下载整合
from PyPDF2 import PdfFileMergermerger = PdfFileMerger()input1 = open("G:\\报纸\经济日报\\2019082701_ ...
Python爬虫实战，Request+urllib模块，批量下载爬取飙歌榜所有音乐文件
前言今天给大家介绍的是Python爬取飙歌榜所有音频数据并保存本地,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是 ...
img绝对路径图片显示_使用python爬虫去风景图片网站批量下载图片
使用python爬虫(requests,BeautifulSoup)去风景图片网站批量下载图片 1.写代码背景: 今天闲来无事,想弄点图片放到电脑,方便以后使用,故去百度查找一些风景图片网站,发现图片 ...

爬虫进行isca-speech分会场的pdf批量下载部分问题解决

首先目标进行分会场的文件下载

一共三步：

部分问题描述

获取网页

获取超链接

开始下载

启动样例

爬虫进行isca-speech分会场的pdf批量下载部分问题解决相关推荐

最新文章

热门文章