python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接
文章目录
- 前言
- 百度文库
- 道客巴巴
- 豆丁网
前言
在从两个小网站爬取了书籍之后,我想研究一下大网站的网页,便把自己分析出来的一点结果分享出来,希望能帮助大家,也请大佬指出其中不足。
百度文库
任意打开一篇文档F12调出控制台
试着检查一下图片元素,可以发现一个url
url很长,包含了很多参数,我单独分析了一下参数的内容,没能找到页面之间的循环规律,如果有大佬发现了还望点拨点拨。
把链接拿出来直接从浏览器访问看看,成功获得了图片资源。
手动翻页,继续检查图片,同样可以获得一个新的url
这样以来就可以用selenium进行翻页,获取图片资源了,而元素定位可以结合之前图片中标注的#pageNo-1的这种id选择器,循环起来获取图片资源。
道客巴巴
这个需要在IE浏览器下操作,任意打开一个文档,调出控制台;依旧是找图片的连接;在这里图片链接被拆开放在object的data与param的value当中。
将刚才的链接拼好在页面中打开,虽然看起来是图片,实际上是flash,chrome直接访问会下载一个swf而非加载图片。
由于selenium调用ie并不那么常见,而且我采取的是截图来获取flash的图片,这里简单演示一下代码,还没有完善翻页获取多张图片。
from bs4 import BeautifulSoup
from selenium import webdriver
browser = webdriver.Ie()
browser.get('http://www.doc88.com/p-2055371015972.html')
html = browser.page_source
soup = BeautifulSoup(html, 'lxml')
# 获取object标签
list = soup.find_all('object')
for item in list:# 获取object下的参数,索引为3的是需要的链接值childs = soup.find('object').childreni = 0for child in childs:if i == 3:value = child['value']url = item['data']+valueprint(url)i += 1browser.get(url)browser.get_screenshot_as_file('F:/1.png')
结果展示
虽然比例有点失调,不过之后合成pdf的时候可以根据画布的尺寸进行调整。
豆丁网
这个也需要在ie下进行操作,在chrome、Firefox等浏览器内核下加载的是canvas的画布,双内核的360浏览在此采用的ie的加载机制。
后续的操作与道客巴巴中的相同,不再演示。
python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接相关推荐
- 2023 最新一键下载百度网盘/阿里云盘/百度文库/道客巴巴/原创力文档
苏生不惑第415 篇原创文章,将本公众号设为星标,第一时间看最新文章. 之前分享过录制了个视频:2022年11月一键下载百度网盘/百度文库/豆丁/道客巴巴/原创力文档 ,2023年再更新下 . 爱奇艺 ...
- python爬虫破解百度文库_用Python爬取百度文库0下载券的免费文档详细步骤,附可执行软件...
[Python] 纯文本查看 复制代码from urllib import parse import requests import webbrowser from pyquery import Py ...
- Python爬虫入门【15】:煎蛋网XXOO图片抓取
今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在 ...
- python爬虫(2)爬取游民星空网的图片
python 入门级别爬虫 目的:爬取游民星空的图片 前两天在游民星空看到几张美图,然后就想把它保存下来,但是一个一个的右键保存,太不爽了,身为一个程序源,一个码农,怎么能这么低级的保存呢? 然后最近 ...
- python爬虫无敌简单案列之堆糖网的图片爬取
导入模块: import requests import urllib.parse from urllib.request import urlretrieve 输入需要搜索的内容: num = 1 ...
- 百度、豆丁、道客巴巴文库免费下载
百度.豆丁.道客巴巴文库免费下载 软件下载地址: http://56doc.1x.net/help.html
- 冰点下载-支持百度文库、道客巴巴、豆丁等主流文库平台文档下载
一个文档下载神器,有了它,就不用再开VIP了,亲测有效.软件界面如下:支持百度文库.道客巴巴.豆丁等主流文库平台文档下载,功能十分强大. 资源获取:冰点下载
- python 下载道客巴巴文档
python 下载道客巴巴文档 环境准备 首先,我们会使用到selenium这个库,直接用pip安装即可,有关于selenium的使用还需要安装浏览器驱动和配置环境变量,在这里就不过多阐述,很多博客中 ...
- 爬虫python下载-如何用Python爬虫实现百度图片自动下载?
制作爬虫的步骤 制作一个爬虫一般分以下几个步骤: 分析需求 分析网页源代码,配合开发者工具 编写正则表达式或者XPath表达式 正式编写 python 爬虫代码 效果预览 运行效果如下: 存放图片的文 ...
- DayDayUp:教你一招如何在道客巴巴免费下载自己被侵权的文章
DayDayUp:教你一招如何在道客巴巴免费下载自己被侵权的文章 目录 教你一招如何在道客巴巴免费下载自己被侵权的文章 定位到侵权文章链接 第一步,点击[打印] 第二步,利用稻壳阅读器软件打开文章 T ...
最新文章
- CISCO CCNA RIP
- (推荐)叮当——中文语音对话机器人
- STM32 进阶教程 17 - ADC注入通道
- commons-lang3工具类学习(一)
- 西门子plm_西门子的Teamcenter、TIA Portal、NX MCD是如何结合在一起的
- # 遍历结构体_C#学习笔记05--枚举/结构体
- 一个深入学习Linux/C/C++的原创技术号
- go - struct
- 凸优化非系统学习之笔记5:内点法
- 黑马程序员宣传语征集大赛
- 淘宝数据分析必须知道的15个核心问题
- 前端基础三剑客之——HTML超文本标记语言(上篇)
- php+chmod+r,从今往后,谁再告诉你Linux上chmod -R 777解决权限,果断绝交
- 3 计算机网络的主要功能,计算机网络的功能主要有哪些?
- win10服务器cpu占用过高,完美解决:Win10资源管理器占用CPU过高
- 音视频处理工具ffmpeg基本使用
- 基于51单片机的智能门禁控制系统(仿真+源码+全套资料)
- 以前的java单机游戏过关长剑,玩过这些经典单机游戏_就说明你已经老了
- curl命令学习使用小结
- 签千亿订单,中芯国际可量产3nm芯片?