我需要找到一种方法来下载给定url中的所有pdf文件,然后我找到了一个脚本,该脚本可能——我还没有测试过——完成了这个任务:import urllib.parse

import urllib2

import os

import sys

from bs4 import BeautifulSoup

from urllib3 import request

url = "https://...."

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.3; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0"}

i = 0

request = urlib2.request(url, None, headers)

html = urllib2.urlopen(request)

soup = BeuatifulSoup(html.read())

for tag in soup.findAll("a" , href = True)

tag["href"] = urlparse.urljoin(url, tag["href"])

if os.path.splitext(os.path.basename(tag["href"]))[1] == ".pdf"

current = urllib2.urlopen(tag["href"])

print("\n[*] Downloading: %s" %(os.path.basename(tag["href"])))

f = open(download_path + "\\" + os.path.basename(tag["href"], "wb"))

f.write(current.read())

f.close()

i += 1

print("\n[*] Downloaded %d files" %(i + 1))

raw_input("[+] Press any key to exit ... ")

问题是我安装了python3.3,而这个脚本不能与python3.3一起运行。E、 urllib2不适用于python3.3。在

你能告诉我如何修改这个脚本使之与Python3.3兼容吗?在

我将非常感谢你的帮助。在

python下载url链接_使用Python从url地址下载所有pdf文件相关推荐

  1. python 转短链接_使用Python生成url短链接的方法

    #引入哈希库 import hashlib def get_md5(s): s = s.encode('utf8') if isinstance(s, unicode) else s m = hash ...

  2. python爬虫基础知识点_入门Python爬虫知识点梳理

    [小宅按]爬虫基本原理就是通过网络请求从远程服务器下载数据的过程,而这个网络请求背后的技术就是基于 HTTP 协议.作为入门爬虫来说,用户需要了解 HTTP协议的基本原理,虽然 HTTP 规范用一本书 ...

  3. python数据整理 高一_关于Python爬虫的最全知识梳理,项目经理花了三天总结出来的经验...

    作爲零基础小白,大体上可分爲三个阶段去完成,第一阶段是入门,掌握必备基础知识,比如Python基础.网络央求的基本原理等,第二阶段是模仿,跟着别人的爬虫代码学,弄懂每一行代码,熟习主流的爬虫工具,第三 ...

  4. 用python将小册子打印扫描的A3幅面双页乱码的PDF文件转换A4幅面顺码的PDF文件

    程序功能: 用python将小册子打印扫描的A3幅面双页乱码的PDF文件转换A4幅面顺码的PDF文件         问题:A3幅面的双面打印的在中间用骑马钉装订成小册子, 拆开中间装订的订书钉由复印 ...

  5. python连接opencv库_利用Python和OpenCV库将URL转换为OpenCV格式的方法

    今天的博客是直接来源于我自己的个人工具函数库. 过去几个月,有些PyImageSearch读者电邮问我:"如何获取URL指向的图片并将其转换成OpenCV格式(不用将其写入磁盘再读回)&qu ...

  6. python编程免费小说_使用Python开发小说下载器,不再为下载小说而发愁

    有点荒废 这几天有点荒废,之前弃坑的网文<伏天氏>,这几天又给捡起来了.然后一发不可收拾的只想看小说,荒废了我的学习.在这里我要检讨啊..... 像我这样的穷人,看小说肯定是找免费的网站, ...

  7. python模拟百度搜索点击链接_用 Python 获取百度搜索结果链接

    前言 近期有许多项目需要这个功能,由于Python实现起来比较简单就这么做了,代码贴下来觉得好点个赞吧~ 代码 # coding: utf-8 import os import time import ...

  8. python 过滤相似图片_求教 python 网站爬虫过滤出图片 url 的问题

    下面代码是在图片网站上截取的,想问下用 Python 爬虫,怎样才能过滤出 images 下面不同 size 的图片 url 呢? "images": [{ "size& ...

  9. python 动态编译代码_编译Python代码以使用Cython静态链接可执行文...

    经验丰富的问题??显然来自链接器(gcc在引擎盖下启动了一个链接器,看到它 – 只需用详细模式启动带有-v的gcc).那么让我们先简要提醒链接过程如何工作: 链接器保留其需要解析的所有符号的名称.在开 ...

最新文章

  1. iOS开发那些悲剧的事儿
  2. 华为可以看游戏时长吗_怎么测试华为手机玩游戏的帧率情况
  3. 确保Kubernetes环境安全的3种最佳实践
  4. [转]cscope在windows下使用mingw编译的方法
  5. php get 传循环出来的参数_简单学习PHP中的反射
  6. 装饰模式/适配器模式/代理模式
  7. javascript是一门多线程的语言_如何理解JavaScript是一种单线程非阻塞脚本语言?...
  8. HIVE数据导入MYSQL实现方式
  9. c语言 倒计时不清屏_c语言 清屏函数
  10. echarts源码打包_Echarts模块v1.5更新【更新支持多线程,封装大量快速方法,增加史上最详细示例】...
  11. ESP8266物联网开发入门教程
  12. CSS学习(四)——字体样式,文本样式
  13. exls表格搜索快捷键_excel表格查找数据查找出来的-如何在一份Excel表格中进行快速查找,快捷键是?...
  14. 紫外光谱分析的基本原理是什么
  15. mysql explain结果信息_MySQL EXPLAIN 输出信息解读
  16. 485集线器在总线型数据采集系统的应用
  17. 如何制作流程图?流程图制作软件哪个好
  18. vue+gin—— GetcharZp
  19. VsCode中运行HTML页面时出现乱码
  20. 关于计算机如何实现减法操作

热门文章

  1. Linux Shell 中各种括号的作用 ()、(())、[]、[[]]、{}
  2. Java Swing/AWT和GTK混合GUI编程
  3. linux shell学习(一)第一个hello world
  4. python网页前端和react有什么区别_Vue 和 React 的优点分别是什么?
  5. inner join 与 left join 、right join之间的区别
  6. 猿辅导的python课_每天自学俩小时Python,改变命运足矣
  7. android 微信支付过程,android 微信 支付 接入流程总结
  8. OpenShift 4 - 在集群节点用crictl对Pod/Image/Container进行操作
  9. 为制造业构建Teams Power App 3:创建制造商UI
  10. Vue 3 最新进展