文章目录

  • 前言
  • 百度文库
  • 道客巴巴
  • 豆丁网

前言

在从两个小网站爬取了书籍之后,我想研究一下大网站的网页,便把自己分析出来的一点结果分享出来,希望能帮助大家,也请大佬指出其中不足。

百度文库

任意打开一篇文档F12调出控制台

试着检查一下图片元素,可以发现一个url

url很长,包含了很多参数,我单独分析了一下参数的内容,没能找到页面之间的循环规律,如果有大佬发现了还望点拨点拨。

把链接拿出来直接从浏览器访问看看,成功获得了图片资源。

手动翻页,继续检查图片,同样可以获得一个新的url

这样以来就可以用selenium进行翻页,获取图片资源了,而元素定位可以结合之前图片中标注的#pageNo-1的这种id选择器,循环起来获取图片资源。

道客巴巴

这个需要在IE浏览器下操作,任意打开一个文档,调出控制台;依旧是找图片的连接;在这里图片链接被拆开放在object的data与param的value当中。

将刚才的链接拼好在页面中打开,虽然看起来是图片,实际上是flash,chrome直接访问会下载一个swf而非加载图片。

由于selenium调用ie并不那么常见,而且我采取的是截图来获取flash的图片,这里简单演示一下代码,还没有完善翻页获取多张图片。

from bs4 import BeautifulSoup
from selenium import webdriver
browser = webdriver.Ie()
browser.get('http://www.doc88.com/p-2055371015972.html')
html = browser.page_source
soup = BeautifulSoup(html, 'lxml')
# 获取object标签
list = soup.find_all('object')
for item in list:# 获取object下的参数,索引为3的是需要的链接值childs = soup.find('object').childreni = 0for child in childs:if i == 3:value = child['value']url = item['data']+valueprint(url)i += 1browser.get(url)browser.get_screenshot_as_file('F:/1.png')

结果展示

虽然比例有点失调,不过之后合成pdf的时候可以根据画布的尺寸进行调整。

豆丁网

这个也需要在ie下进行操作,在chrome、Firefox等浏览器内核下加载的是canvas的画布,双内核的360浏览在此采用的ie的加载机制。

后续的操作与道客巴巴中的相同,不再演示。

python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接相关推荐

  1. 2023 最新一键下载百度网盘/阿里云盘/百度文库/道客巴巴/原创力文档

    苏生不惑第415 篇原创文章,将本公众号设为星标,第一时间看最新文章. 之前分享过录制了个视频:2022年11月一键下载百度网盘/百度文库/豆丁/道客巴巴/原创力文档 ,2023年再更新下 . 爱奇艺 ...

  2. python爬虫破解百度文库_用Python爬取百度文库0下载券的免费文档详细步骤,附可执行软件...

    [Python] 纯文本查看 复制代码from urllib import parse import requests import webbrowser from pyquery import Py ...

  3. Python爬虫入门【15】:煎蛋网XXOO图片抓取

    今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在 ...

  4. python爬虫(2)爬取游民星空网的图片

    python 入门级别爬虫 目的:爬取游民星空的图片 前两天在游民星空看到几张美图,然后就想把它保存下来,但是一个一个的右键保存,太不爽了,身为一个程序源,一个码农,怎么能这么低级的保存呢? 然后最近 ...

  5. python爬虫无敌简单案列之堆糖网的图片爬取

    导入模块: import requests import urllib.parse from urllib.request import urlretrieve 输入需要搜索的内容: num = 1 ...

  6. 百度、豆丁、道客巴巴文库免费下载

    百度.豆丁.道客巴巴文库免费下载 软件下载地址: http://56doc.1x.net/help.html

  7. 冰点下载-支持百度文库、道客巴巴、豆丁等主流文库平台文档下载

    一个文档下载神器,有了它,就不用再开VIP了,亲测有效.软件界面如下:支持百度文库.道客巴巴.豆丁等主流文库平台文档下载,功能十分强大. 资源获取:冰点下载

  8. python 下载道客巴巴文档

    python 下载道客巴巴文档 环境准备 首先,我们会使用到selenium这个库,直接用pip安装即可,有关于selenium的使用还需要安装浏览器驱动和配置环境变量,在这里就不过多阐述,很多博客中 ...

  9. 爬虫python下载-如何用Python爬虫实现百度图片自动下载?

    制作爬虫的步骤 制作一个爬虫一般分以下几个步骤: 分析需求 分析网页源代码,配合开发者工具 编写正则表达式或者XPath表达式 正式编写 python 爬虫代码 效果预览 运行效果如下: 存放图片的文 ...

  10. DayDayUp:教你一招如何在道客巴巴免费下载自己被侵权的文章

    DayDayUp:教你一招如何在道客巴巴免费下载自己被侵权的文章 目录 教你一招如何在道客巴巴免费下载自己被侵权的文章 定位到侵权文章链接 第一步,点击[打印] 第二步,利用稻壳阅读器软件打开文章 T ...

最新文章

  1. CISCO CCNA RIP
  2. (推荐)叮当——中文语音对话机器人
  3. STM32 进阶教程 17 - ADC注入通道
  4. commons-lang3工具类学习(一)
  5. 西门子plm_西门子的Teamcenter、TIA Portal、NX MCD是如何结合在一起的
  6. # 遍历结构体_C#学习笔记05--枚举/结构体
  7. 一个深入学习Linux/C/C++的原创技术号
  8. go - struct
  9. 凸优化非系统学习之笔记5:内点法
  10. 黑马程序员宣传语征集大赛
  11. 淘宝数据分析必须知道的15个核心问题
  12. 前端基础三剑客之——HTML超文本标记语言(上篇)
  13. php+chmod+r,从今往后,谁再告诉你Linux上chmod -R 777解决权限,果断绝交
  14. 3 计算机网络的主要功能,计算机网络的功能主要有哪些?
  15. win10服务器cpu占用过高,完美解决:Win10资源管理器占用CPU过高
  16. 音视频处理工具ffmpeg基本使用
  17. 基于51单片机的智能门禁控制系统(仿真+源码+全套资料)
  18. 以前的java单机游戏过关长剑,玩过这些经典单机游戏_就说明你已经老了
  19. curl命令学习使用小结
  20. 签千亿订单,中芯国际可量产3nm芯片?

热门文章

  1. CAD导出pdf的正确方法(包括导出黑白pdf)
  2. Java开源框架集(全)
  3. Android随笔-include、merge、ViewStub
  4. 华硕笔记本电脑突然失去WIFI功能
  5. Qt 5.9.6 下载及安装
  6. Adobe Acrobat 虚拟打印机安装方法(无法找到Adobe PDF资源文件)
  7. python多PDF文件合成一个
  8. UG NX 12 草图环境中使用鼠标的说明
  9. Linux搭建测试环境详细步骤
  10. python 拼音输入法_用Python从0开始实现一个中文拼音输入法