Selenium爬虫 -- 图片视频的src绝对地址链接分析
爬取**的时候,每次爬取图片都要转到mbasic.**网站,这样极容易被检测封号。
然后我发现在检查页面的元素的时候,图片和视频的链接都藏在了元素的style属性中。
思路:
定位多媒体元素 -> 获取src属性 -> 截取http网址 -> 对网址进行分析替换 -> 爬取多媒体资源
网址中有些反复出现的\3a、\3d、\26等字符串,猜测可能是连接符之类的保密替换。
查询资料发现是网址URL中的特殊字符转义编码。
对照表:
字符 - URL编码值
空格 - %20
" - %22
# - %23
% - %25
& - %26
( - %28
) - %29
+ - %2B
, - %2C
/ - %2F
: - %3A
; - %3B
< - %3C
= - %3D
> - %3E
? - %3F
@ - %40
\ - %5C
| - %7C
获取到保密的资源地址后,将这些字符替换,得到真正的网址。
pic = article.find_element_by_xpath('./div/div/i')
thepicstyle = pic.get_attribute('style')
picsrc = thepicstyle[thepicstyle.find('background-image: url(\'')+23:thepicstyle.find('\');background-repeat')]
picsrc = picsrc.replace('\\3a ', ':')
picsrc = picsrc.replace('\\3d ', '=')
picsrc = picsrc.replace('\\26 ', '&')
拿这个网址去下载和访问图片就可以了,甚至不需要科学上网!
Selenium爬虫 -- 图片视频的src绝对地址链接分析相关推荐
- selenium爬虫图片
selenium爬虫图片 前言 1. 环境配置 1.1 Anaconda安装 1.2 selenium安装 1.3 google浏览器 1.4 chromedriver配置 2. 爬图片代码 总结 前 ...
- 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址
昨天为大家介绍了如何采集图片/视频/资源文件后,有小伙伴问我如何采集他们的链接地址,今天小编就为大家演示如何采集图片/视频/资源文件的链接地址,操作如下: 第一步:新建任务 ①点击左上角"加 ...
- 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址 1
2019独角兽企业重金招聘Python工程师标准>>> 以昵图网的美食海报为例,采集所有图片图片: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图 ...
- python 通过selenium 定位图片后获取src属性
直接导入selenium from selenium import webdriver 打开网页后通过以下两种方式 来识别ID 获取需要的对象 driver.find_element_by_id(&q ...
- 「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫
本专栏是以杨秀璋老师爬虫著作<Python网络数据爬取及分析「从入门到精通」>为主线.个人学习理解为主要内容,以学习笔记形式编写的. 本专栏不光是自己的一个学习分享,也希望能给您普及一些关 ...
- 数据分析与爬虫实战视频——学习笔记(一)(python基础、urllib、超时设置、自动模拟HTTP请求、异常处理、浏览器伪装、代理服务器、新闻爬虫、淘宝登陆和图片爬取)
未经允许,请勿转载. 连载未完成状态 网址: [数据挖掘]2019年最新python3 数据分析与爬虫实战_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilibili ...
- 【selenium爬虫】用selenium自动化爬虫爬取海贼王动漫图片
以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,转载请说明出处,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/art ...
- 糗事百科段子 +图片 + 视频爬虫
import requests from lxml import etree from bs4 import BeautifulSoup import jsonclass QiuShi(object) ...
- mysql教学磁力链_【python小项目】网页爬虫+mysql数据库储存,爬虫xx视频网站视频磁力链接...
#!/usr/bin/python3 # coding=utf8 import requests from bs4 import BeautifulSoup import pymysql import ...
- python爬虫 下载视频网站视频
python爬虫 下载视频网站视频 xpath解析页面源码 requests.Session() 解决 status_code 302 网页重定向 selenium 获取网页遇到 iframe 标签解 ...
最新文章
- 取eclipse console 打印字符串,判断日志是否有异常
- 小微商 获取平台证书 报错
- 1.1 决策树算法原理
- 别纠结,提高代码整洁度也没那么难!
- java面向对象程序练习_5本面向经验丰富的程序员的高级Java书籍
- linux iphone 存储空间,iOS 11 将会自动删除低使用率 App来释放 iPhone 存储空间
- mysql 游标循环_MySQL 游标 循环
- android m是什么单位,M代表什么单位?
- scl 转换gcc版本
- 中继器故障诊断与排除
- Android 万能遥控 开源,快速实现WIFI红外遥控器(ESP8266 SoC模式)
- java分页类Page
- 人类一败涂地做图教程_人类一败涂地怎么捏人?自定义人物PS制作教程
- adblock过滤规则编写
- Python文件操作与PDF处理
- 如何让微信小程序弹窗滚动条设置在最上面
- CHIL-SQL-快速参考
- 电视剧 | 黑镜S5E2 碎片
- 【科研技巧】解决WPS中插入mathtype选项卡为灰色不能使用
- 不积跬步无以至千里,我与CSDN不平凡的2021年