python下载url链接_使用Python从url地址下载所有pdf文件
我需要找到一种方法来下载给定url中的所有pdf文件,然后我找到了一个脚本,该脚本可能——我还没有测试过——完成了这个任务:import urllib.parse
import urllib2
import os
import sys
from bs4 import BeautifulSoup
from urllib3 import request
url = "https://...."
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.3; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0"}
i = 0
request = urlib2.request(url, None, headers)
html = urllib2.urlopen(request)
soup = BeuatifulSoup(html.read())
for tag in soup.findAll("a" , href = True)
tag["href"] = urlparse.urljoin(url, tag["href"])
if os.path.splitext(os.path.basename(tag["href"]))[1] == ".pdf"
current = urllib2.urlopen(tag["href"])
print("\n[*] Downloading: %s" %(os.path.basename(tag["href"])))
f = open(download_path + "\\" + os.path.basename(tag["href"], "wb"))
f.write(current.read())
f.close()
i += 1
print("\n[*] Downloaded %d files" %(i + 1))
raw_input("[+] Press any key to exit ... ")
问题是我安装了python3.3,而这个脚本不能与python3.3一起运行。E、 urllib2不适用于python3.3。在
你能告诉我如何修改这个脚本使之与Python3.3兼容吗?在
我将非常感谢你的帮助。在
python下载url链接_使用Python从url地址下载所有pdf文件相关推荐
- python 转短链接_使用Python生成url短链接的方法
#引入哈希库 import hashlib def get_md5(s): s = s.encode('utf8') if isinstance(s, unicode) else s m = hash ...
- python爬虫基础知识点_入门Python爬虫知识点梳理
[小宅按]爬虫基本原理就是通过网络请求从远程服务器下载数据的过程,而这个网络请求背后的技术就是基于 HTTP 协议.作为入门爬虫来说,用户需要了解 HTTP协议的基本原理,虽然 HTTP 规范用一本书 ...
- python数据整理 高一_关于Python爬虫的最全知识梳理,项目经理花了三天总结出来的经验...
作爲零基础小白,大体上可分爲三个阶段去完成,第一阶段是入门,掌握必备基础知识,比如Python基础.网络央求的基本原理等,第二阶段是模仿,跟着别人的爬虫代码学,弄懂每一行代码,熟习主流的爬虫工具,第三 ...
- 用python将小册子打印扫描的A3幅面双页乱码的PDF文件转换A4幅面顺码的PDF文件
程序功能: 用python将小册子打印扫描的A3幅面双页乱码的PDF文件转换A4幅面顺码的PDF文件 问题:A3幅面的双面打印的在中间用骑马钉装订成小册子, 拆开中间装订的订书钉由复印 ...
- python连接opencv库_利用Python和OpenCV库将URL转换为OpenCV格式的方法
今天的博客是直接来源于我自己的个人工具函数库. 过去几个月,有些PyImageSearch读者电邮问我:"如何获取URL指向的图片并将其转换成OpenCV格式(不用将其写入磁盘再读回)&qu ...
- python编程免费小说_使用Python开发小说下载器,不再为下载小说而发愁
有点荒废 这几天有点荒废,之前弃坑的网文<伏天氏>,这几天又给捡起来了.然后一发不可收拾的只想看小说,荒废了我的学习.在这里我要检讨啊..... 像我这样的穷人,看小说肯定是找免费的网站, ...
- python模拟百度搜索点击链接_用 Python 获取百度搜索结果链接
前言 近期有许多项目需要这个功能,由于Python实现起来比较简单就这么做了,代码贴下来觉得好点个赞吧~ 代码 # coding: utf-8 import os import time import ...
- python 过滤相似图片_求教 python 网站爬虫过滤出图片 url 的问题
下面代码是在图片网站上截取的,想问下用 Python 爬虫,怎样才能过滤出 images 下面不同 size 的图片 url 呢? "images": [{ "size& ...
- python 动态编译代码_编译Python代码以使用Cython静态链接可执行文...
经验丰富的问题??显然来自链接器(gcc在引擎盖下启动了一个链接器,看到它 – 只需用详细模式启动带有-v的gcc).那么让我们先简要提醒链接过程如何工作: 链接器保留其需要解析的所有符号的名称.在开 ...
最新文章
- iOS开发那些悲剧的事儿
- 华为可以看游戏时长吗_怎么测试华为手机玩游戏的帧率情况
- 确保Kubernetes环境安全的3种最佳实践
- [转]cscope在windows下使用mingw编译的方法
- php get 传循环出来的参数_简单学习PHP中的反射
- 装饰模式/适配器模式/代理模式
- javascript是一门多线程的语言_如何理解JavaScript是一种单线程非阻塞脚本语言?...
- HIVE数据导入MYSQL实现方式
- c语言 倒计时不清屏_c语言 清屏函数
- echarts源码打包_Echarts模块v1.5更新【更新支持多线程,封装大量快速方法,增加史上最详细示例】...
- ESP8266物联网开发入门教程
- CSS学习(四)——字体样式,文本样式
- exls表格搜索快捷键_excel表格查找数据查找出来的-如何在一份Excel表格中进行快速查找,快捷键是?...
- 紫外光谱分析的基本原理是什么
- mysql explain结果信息_MySQL EXPLAIN 输出信息解读
- 485集线器在总线型数据采集系统的应用
- 如何制作流程图?流程图制作软件哪个好
- vue+gin—— GetcharZp
- VsCode中运行HTML页面时出现乱码
- 关于计算机如何实现减法操作
热门文章
- Linux Shell 中各种括号的作用 ()、(())、[]、[[]]、{}
- Java Swing/AWT和GTK混合GUI编程
- linux shell学习(一)第一个hello world
- python网页前端和react有什么区别_Vue 和 React 的优点分别是什么?
- inner join 与 left join 、right join之间的区别
- 猿辅导的python课_每天自学俩小时Python,改变命运足矣
- android 微信支付过程,android 微信 支付 接入流程总结
- OpenShift 4 - 在集群节点用crictl对Pod/Image/Container进行操作
- 为制造业构建Teams Power App 3:创建制造商UI
- Vue 3 最新进展