首先目标进行分会场的文件下载

如:

这里我们需要将该页面的文件进行下载

一共三步:

  1. 第一步,将整个页面进行获取保存
  2. 第二步,保存后的页面,将其中我们需要的超链接进行获取和保存
  3. 第三步,将第二步骤的超链接list,进行文件的下载

致此文件下载完毕

部分问题描述

遇到证书问题
就是那个SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED]

import ssl
ssl._create_default_https_context=ssl._create_unverified_context

上面的还没有用的时候:可以尝试加入类似下面的verify =False

r = requests.get(url=list_link[i], verify=False)

正文部分由三个函数组成,其中都有注释,请自行消化

获取网页

#函数是获取到该网页信息
def getHteml(url_name):# post请求流程处理# urlpost_url = url_name# 进行请求发送#当爬取网站时候,显示证书验证问题如下,加入verify=False就可以了#问题描述ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] certi,加入了ssl._create_default_https_context = ssl._create_unverified_context也没用response = requests.get(url=post_url,verify=False)html=response.textreturn html

获取超链接

def getherf(html,id):# 使用BeautifulSoup函数解析传入的htmlbt = BeautifulSoup(html, "html.parser")title = bt.find('div',id=id).find_all('a')set_of_link=[]for i in title:link = i.get('href')print()if str(link).find('html')==-1:#这里加前缀是因为实际的是加了绝对路径的,所以这里需要加一串字符set_of_link.append('https://www.isca-speech.org/archive/Interspeech_2020/'+link)return set_of_link

开始下载

def begin_down(list_link,dir_name):file_number=1#传进来的是列表dir_name=dir_name.replace(':','')os.mkdir("./" + dir_name)for i in range(0,len(list_link)):#创建的都是不同的,比如先到该列表下的包,然后进行下载,文件名从1开始# 创建一层目录fn = open('./'+dir_name+'/'+str(file_number)+'.pdf', 'wb')file_number=file_number+1r = requests.get(url=list_link[i], verify=False)fn.write(r.content)fn.close()

启动样例

html = getHteml("https://www.isca-speech.org/archive/Interspeech_2020/")#获取到该页面
#id='ASR Neural Network Architectures I'#你需要下载的系列的名称
id='Speech Synthesis: Neural Waveform Generation I'
result = getherf(html,id)#需要下载的文件目录
begin_down(result,id)

诸君共勉

爬虫进行isca-speech分会场的pdf批量下载部分问题解决相关推荐

  1. pdf批量下载工具制作_使用asyncio异步高速下载pdf

    文章目录 前言 零.设计思路 一.核心代码 (一)tkinter框架代码 (二)使用asyncio下载的代码 二.完整代码 三.打包成exe文件 前言    最近在学习进阶的python,学到tkin ...

  2. 爬虫小案例:基于Bing关键词批量下载图片(第二版)

    一.需求: 基于Bing网站,输入关键词,批量下载图片保存到本地 二.代码展示: import requests from lxml import etree import os from multi ...

  3. 爬虫小案例:基于Bing关键词批量下载图片

    一.需求: 基于Bing网站,输入关键词,批量下载图片保存到本地 二.演示: 三.直接上代码 import os import urllib.request import urllib.parse f ...

  4. Python爬虫 - wallhaven任意页面下的壁纸批量下载

    基于Python 任意页面下的壁纸批量下载 github Maxpagenum 爬取页数 fpath 保存路径 url 基础地址 import requests import re import ti ...

  5. MODIS数据批量下载中断问题解决——以MOD13Q1为例

    MODIS-NDVI数据MOD13Q1(250米,16天) 下载过程及问题解决 Terra 中分辨率成像光谱仪 (MODIS) 植被指数 (MOD13Q1) 第 6 版数据每 16 天以 250 米 ...

  6. 从零开始写Python爬虫 --- 1.5 爬虫实践: 笔趣阁小说批量下载

    目标网站 首先来看看我们排行榜的地址: http://www.qu.la/paihangbang/ 我们的目的很明确:找到各类排行旁的的每一部小说的名字和在该网站的链接. 网站分析 首先观察一下网页的 ...

  7. 经济日报pdf批量下载整合

    from PyPDF2 import PdfFileMergermerger = PdfFileMerger()input1 = open("G:\\报纸\经济日报\\2019082701_ ...

  8. Python爬虫实战,Request+urllib模块,批量下载爬取飙歌榜所有音乐文件

    前言 今天给大家介绍的是Python爬取飙歌榜所有音频数据并保存本地,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是 ...

  9. img绝对路径图片显示_使用python爬虫去风景图片网站批量下载图片

    使用python爬虫(requests,BeautifulSoup)去风景图片网站批量下载图片 1.写代码背景: 今天闲来无事,想弄点图片放到电脑,方便以后使用,故去百度查找一些风景图片网站,发现图片 ...

最新文章

  1. Elasticsearch之深入了解Search的运行机制
  2. [云炬小程序实战笔记] 第1章 全新版:初识微信小程序
  3. 【Java脚本引擎】脚本引擎执行JavaScript代码
  4. 支持向量机python代码_Python中的支持向量机SVM的使用(有实例)
  5. 为什么gets如此危险?
  6. 明年起网剧可参评白玉兰奖 你期待哪部网剧上榜?
  7. java多线程 游戏_java利用多线程和Socket实现猜拳游戏
  8. swift - 关于title问题
  9. android内存泄漏MAT,利用Android Studio、MAT对Android进行内存泄漏检测
  10. java真题_2017年JAVA考试试题及答案
  11. Linux关机、开机、重启、定时重启、定时关机详细命令(shutdown命令)
  12. 软件性能分析与优化详解
  13. 软件园区网络设计之网络总体设计
  14. RPLIDAR A2 Windows 下开发
  15. 单页网站快速创富秘籍
  16. JGG专刊征稿:时空组学
  17. 利用2阶分数阶微分掩模的边缘检测(Matlab代码实现)
  18. 详解电脑死机没反应怎么解决
  19. solidity 入门
  20. R语言eval,parse批量生成变量并赋值

热门文章

  1. 数据结构与算法基础(青岛大学-王卓)(4)
  2. win10环境变量在哪设置?教你设置win10环境变量的方法
  3. 磨砂服务器波特率修改,完整word版MOXA串口服务器设置步骤.doc
  4. win7怎么设置计算机的性能,win7怎么提升电脑性能
  5. [活动]微信小程序悬赏通缉令——你晒程序我送礼
  6. win10拨号错误 代码720
  7. 基于javaweb的毕业设计毕业论文管理系统(java+ssm+jsp+tomcat+mysql)
  8. 一款简单易用的GIS地图数据浏览器
  9. 使用X265编码视频
  10. android 竞品分析工具对比