使用Selenium和特定的ChromeProfile,您可以使用以下代码下载嵌入式pdf:

码:

def download_pdf(lnk):

from selenium import webdriver

from time import sleep

options = webdriver.ChromeOptions()

download_folder = "C:\"

profile = {"plugins.plugins_list": [{"enabled": False,

"name": "Chrome PDF Viewer"}],

"download.default_directory": download_folder,

"download.extensions_to_open": ""}

options.add_experimental_option("prefs", profile)

print("Downloading file from link: {}".format(lnk))

driver = webdriver.Chrome(chrome_options = options)

driver.get(lnk)

filename = lnk.split("/")[4].split(".cfm")[0]

print("File: {}".format(filename))

print("Status: Download Complete.")

print("Folder: {}".format(download_folder))

driver.close()

当我调用这个函数时:

download_pdf("http://www.equibase.com/premium/eqbPDFChartPlus.cfm?RACE=1&BorP=P&TID=ALB&CTRY=USA&DT=06/17/2002&DAY=D&STYLE=EQB")

那是输出:

>>> Downloading file from link: http://www.equibase.com/premium/eqbPDFChartPlus.cfm?RACE=1&BorP=P&TID=ALB&CTRY=USA&DT=06/17/2002&DAY=D&STYLE=EQB

>>> File: eqbPDFChartPlus

>>> Status: Download Complete.

>>> Folder: C:\n

看看具体的个人资料:

profile = {"plugins.plugins_list": [{"enabled": False,

"name": "Chrome PDF Viewer"}],

"download.default_directory": download_folder,

"download.extensions_to_open": ""}

它会禁用Chrome PDF Viewer插件(将pdf嵌入网页),将默认下载文件夹设置为download_folder变量中定义的文件夹,并设置Chrome不允许自动打开任何扩展程序.

之后,当您打开所谓的“内部链接”时,您的webdriver将自动将.pdf文件下载到download_folder.

python下载网页中的pdf文件_Python下载PDF嵌入页面相关推荐

  1. 如何下载网页中的视频(无需下载其他软件的方法,只需要一个浏览器)

    下载网页中的视频步骤: 1.打开视频所在的网页(以谷歌浏览器为例) 2.播放视频,并点击F12,打开开发者模式 3.点击Network,再点击Media 4.然后点击键盘上的F5,进行刷新,获得如下红 ...

  2. python读取pdf文件_python读取pdf文件

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 一.安装pdfminer3k模块?二. 读取pdf文件import sysimp ...

  3. 用python汇总pdf文件_Python处理PDF文件-简译与总结

    最近看到一篇介绍Python中pyPDF模块的文章,详细介绍了使用pyPDF模块获取PDF文件信息,合并拆分PDF文件等功能.很方便,在此搬运分享以下: 全文介绍了以下几方面的功能 提取文件信息 旋转 ...

  4. python不可以处理pdf文件_Python处理PDF文件-简译与总结

    最近看到一篇介绍Python中pyPDF模块的文章,详细介绍了使用pyPDF模块获取PDF文件信息,合并拆分PDF文件等功能.很方便,在此搬运分享以下: 全文介绍了以下几方面的功能 提取文件信息 旋转 ...

  5. 如何下载网页中的json文件

    之前在做echarts3d和地图结合时时,想着在网上找个例子借鉴一哈,于是在https://gallery.echartsjs.com找到一个示例, 可以看到有json文件,但这个作者并没有把json ...

  6. python下载网页中的pdf文件_【Python】Python的urllib模块、urllib2模块批量进行网页下载文件...

    由于需要从某个网页上下载一些PDF文件,但是需要下载的PDF文件有几百个,所以不可能用人工点击来下载.正好Python有相关的模块,所以写了个程序来进行PDF文件的下载,顺便熟悉了Python的url ...

  7. 如何下载网页中使用的JS及CSS文件

    关键字:下载网页中使用的JS及CSS文件 方法一: 凡浏览过的网页都会临时保存在:C:\Documents and Settings\Administrator(当前登陆用户名)\Local Sett ...

  8. 批量下载网页中所有的PDF文档

    某日要下载网页中所有的PDF文档,大约400个.作为计算机专业的学生,显然不能手工去下载啊!!!于是在网上找到了相关的批量下载文档脚本,众里寻他千百度,终于在一篇博客http://blog.csdn. ...

  9. python飞机大战加背景音乐_python实现飞机大战小游戏 python飞机大战中的音频文件怎么改成MP3...

    怎么样用Python写飞机大战游戏 python开发飞机大战外星人游戏怎么弄双人模式新的一年,哪怕仍是一个人,也要活得像一支队伍,为自己的头脑和心灵招兵买马,不气馁,有召唤,爱自由. 主函数 impo ...

  10. C# 网络编程之webBrowser获取网页url和下载网页中图片

    该文章主要是通过C#网络编程的webBrowser获取网页中的url并简单的尝试下载网页中的图片,主要是为以后网络开发的基础学习.其中主要的通过应用程序结合网页知识.正则表达式实现浏览.获取url.下 ...

最新文章

  1. Python 3.x标准模块库目录
  2. Day 30: Play Framework —— Java开发者的梦想框架
  3. ‘小会计’的转行之旅
  4. 【渝粤题库】国家开放大学2021春2175市场营销学题目
  5. 我们如何在Python中创建多行注释?
  6. thinkPhp 3.1.3的验证码无法显示的问题
  7. prefetch 和preload_preload_prefetch
  8. MongoDB 之 你得知道MongoDB是个什么鬼 MongoDB - 1
  9. atitit.LimeSurvey 安装 attilax 总结
  10. C#正则匹配、分组和替换
  11. 软件工程论文注意事项
  12. 2021年G3锅炉水处理模拟考试及G3锅炉水处理考试试题
  13. 东大oj1155 等凹函数
  14. 柴油车污染治理4G远程排放管理车载终端H6 (远程OBD)GB-17691
  15. 常见的python与爬虫面试题准备好了
  16. TDD双工方式保护时隙与通信距离的关系
  17. 微信公众号平台的现状及发展前景的分析(十八)
  18. 《Linux 高级路由与流量控制手册(2012)》第九章
  19. 【STM32】 直插晶振
  20. PHPCMSV9版本代码审计学习

热门文章

  1. grads插值_利用grads描述文件中的pdef做插值的实用方法,转模式的同学看过来~~...
  2. p5.js 入门教程
  3. lucene全文检索包括双层PDF
  4. 毛星云OpenCV3
  5. matlab 蔡旭晖,matlab基础与应用教程
  6. android数据适配器参数,Android 万能适配器BRVAH
  7. AD教程系列 | 3 - 创建原理图库和PCB库
  8. 《Gradle实战》如何配置利用Maven本地仓库
  9. CSS世界Bug般的存在——字母x与“居中”
  10. 【每日早报】2019/09/17