Selenium爬虫 -- 图片视频的src绝对地址链接分析

爬取**的时候，每次爬取图片都要转到mbasic.**网站，这样极容易被检测封号。

然后我发现在检查页面的元素的时候，图片和视频的链接都藏在了元素的style属性中。

思路：

定位多媒体元素 -> 获取src属性 -> 截取http网址 -> 对网址进行分析替换 -> 爬取多媒体资源

网址中有些反复出现的\3a、\3d、\26等字符串，猜测可能是连接符之类的保密替换。

查询资料发现是网址URL中的特殊字符转义编码。

对照表：

字符 - URL编码值
空格 - %20
"    - %22
#    - %23
%    - %25
&    - %26
(    - %28
)    - %29
+    - %2B
,    - %2C
/    - %2F
:    - %3A
;    - %3B
<    - %3C
=    - %3D
>    - %3E
?    - %3F
@    - %40
\    - %5C
|    - %7C

获取到保密的资源地址后，将这些字符替换，得到真正的网址。

pic = article.find_element_by_xpath('./div/div/i')
thepicstyle = pic.get_attribute('style')
picsrc = thepicstyle[thepicstyle.find('background-image: url(\'')+23:thepicstyle.find('\');background-repeat')]
picsrc = picsrc.replace('\\3a ', ':')
picsrc = picsrc.replace('\\3d ', '=')
picsrc = picsrc.replace('\\26 ', '&')

拿这个网址去下载和访问图片就可以了，甚至不需要科学上网！

Selenium爬虫 -- 图片视频的src绝对地址链接分析相关推荐

selenium爬虫图片
selenium爬虫图片前言 1. 环境配置 1.1 Anaconda安装 1.2 selenium安装 1.3 google浏览器 1.4 chromedriver配置 2. 爬图片代码总结前 ...
前嗅ForeSpider教程：采集图片/视频/资源文件的链接地址
昨天为大家介绍了如何采集图片/视频/资源文件后,有小伙伴问我如何采集他们的链接地址,今天小编就为大家演示如何采集图片/视频/资源文件的链接地址,操作如下: 第一步:新建任务 ①点击左上角"加 ...
前嗅ForeSpider教程：采集图片/视频/资源文件的链接地址 1
2019独角兽企业重金招聘Python工程师标准>>> 以昵图网的美食海报为例,采集所有图片图片: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图 ...
python 通过selenium 定位图片后获取src属性
直接导入selenium from selenium import webdriver 打开网页后通过以下两种方式来识别ID 获取需要的对象 driver.find_element_by_id(&q ...
「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫
本专栏是以杨秀璋老师爬虫著作<Python网络数据爬取及分析「从入门到精通」>为主线.个人学习理解为主要内容,以学习笔记形式编写的. 本专栏不光是自己的一个学习分享,也希望能给您普及一些关 ...
数据分析与爬虫实战视频——学习笔记（一）（python基础、urllib、超时设置、自动模拟HTTP请求、异常处理、浏览器伪装、代理服务器、新闻爬虫、淘宝登陆和图片爬取）
未经允许,请勿转载. 连载未完成状态网址: [数据挖掘]2019年最新python3 数据分析与爬虫实战_哔哩哔哩 (゜-゜)つロ干杯~-bilibili https://www.bilibili ...
【selenium爬虫】用selenium自动化爬虫爬取海贼王动漫图片
以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,转载请说明出处,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/art ...
糗事百科段子 +图片 + 视频爬虫
import requests from lxml import etree from bs4 import BeautifulSoup import jsonclass QiuShi(object) ...
mysql教学磁力链_【python小项目】网页爬虫+mysql数据库储存，爬虫xx视频网站视频磁力链接...
#!/usr/bin/python3 # coding=utf8 import requests from bs4 import BeautifulSoup import pymysql import ...
python爬虫下载视频网站视频
python爬虫下载视频网站视频 xpath解析页面源码 requests.Session() 解决 status_code 302 网页重定向 selenium 获取网页遇到 iframe 标签解 ...

Selenium爬虫 -- 图片视频的src绝对地址链接分析

Selenium爬虫 -- 图片视频的src绝对地址链接分析相关推荐

最新文章

热门文章