爬取**的时候,每次爬取图片都要转到mbasic.**网站,这样极容易被检测封号。

然后我发现在检查页面的元素的时候,图片和视频的链接都藏在了元素的style属性中。

思路:

定位多媒体元素  ->  获取src属性  ->  截取http网址  ->  对网址进行分析替换  ->  爬取多媒体资源

网址中有些反复出现的\3a、\3d、\26等字符串,猜测可能是连接符之类的保密替换。

查询资料发现是网址URL中的特殊字符转义编码。

对照表:

字符 - URL编码值
空格 - %20
"    - %22
#    - %23
%    - %25
&    - %26
(    - %28
)    - %29
+    - %2B
,    - %2C
/    - %2F
:    - %3A
;    - %3B
<    - %3C
=    - %3D
>    - %3E
?    - %3F
@    - %40
\    - %5C
|    - %7C

获取到保密的资源地址后,将这些字符替换,得到真正的网址。

pic = article.find_element_by_xpath('./div/div/i')
thepicstyle = pic.get_attribute('style')
picsrc = thepicstyle[thepicstyle.find('background-image: url(\'')+23:thepicstyle.find('\');background-repeat')]
picsrc = picsrc.replace('\\3a ', ':')
picsrc = picsrc.replace('\\3d ', '=')
picsrc = picsrc.replace('\\26 ', '&')

拿这个网址去下载和访问图片就可以了,甚至不需要科学上网!

Selenium爬虫 -- 图片视频的src绝对地址链接分析相关推荐

  1. selenium爬虫图片

    selenium爬虫图片 前言 1. 环境配置 1.1 Anaconda安装 1.2 selenium安装 1.3 google浏览器 1.4 chromedriver配置 2. 爬图片代码 总结 前 ...

  2. 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址

    昨天为大家介绍了如何采集图片/视频/资源文件后,有小伙伴问我如何采集他们的链接地址,今天小编就为大家演示如何采集图片/视频/资源文件的链接地址,操作如下: 第一步:新建任务 ①点击左上角"加 ...

  3. 前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址 1

    2019独角兽企业重金招聘Python工程师标准>>> 以昵图网的美食海报为例,采集所有图片图片: 第一步:新建任务 ①点击左上角"加号"新建任务,如图1: [图 ...

  4. python 通过selenium 定位图片后获取src属性

    直接导入selenium from selenium import webdriver 打开网页后通过以下两种方式 来识别ID 获取需要的对象 driver.find_element_by_id(&q ...

  5. 「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫

    本专栏是以杨秀璋老师爬虫著作<Python网络数据爬取及分析「从入门到精通」>为主线.个人学习理解为主要内容,以学习笔记形式编写的. 本专栏不光是自己的一个学习分享,也希望能给您普及一些关 ...

  6. 数据分析与爬虫实战视频——学习笔记(一)(python基础、urllib、超时设置、自动模拟HTTP请求、异常处理、浏览器伪装、代理服务器、新闻爬虫、淘宝登陆和图片爬取)

    未经允许,请勿转载. 连载未完成状态 网址: [数据挖掘]2019年最新python3 数据分析与爬虫实战_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilibili ...

  7. 【selenium爬虫】用selenium自动化爬虫爬取海贼王动漫图片

    以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,转载请说明出处,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/art ...

  8. 糗事百科段子 +图片 + 视频爬虫

    import requests from lxml import etree from bs4 import BeautifulSoup import jsonclass QiuShi(object) ...

  9. mysql教学磁力链_【python小项目】网页爬虫+mysql数据库储存,爬虫xx视频网站视频磁力链接...

    #!/usr/bin/python3 # coding=utf8 import requests from bs4 import BeautifulSoup import pymysql import ...

  10. python爬虫 下载视频网站视频

    python爬虫 下载视频网站视频 xpath解析页面源码 requests.Session() 解决 status_code 302 网页重定向 selenium 获取网页遇到 iframe 标签解 ...

最新文章

  1. 取eclipse console 打印字符串,判断日志是否有异常
  2. 小微商 获取平台证书 报错
  3. 1.1 决策树算法原理
  4. 别纠结,提高代码整洁度也没那么难!
  5. java面向对象程序练习_5本面向经验丰富的程序员的高级Java书籍
  6. linux iphone 存储空间,iOS 11 将会自动删除低使用率 App来释放 iPhone 存储空间
  7. mysql 游标循环_MySQL 游标 循环
  8. android m是什么单位,M代表什么单位?
  9. scl 转换gcc版本
  10. 中继器故障诊断与排除
  11. Android 万能遥控 开源,快速实现WIFI红外遥控器(ESP8266 SoC模式)
  12. java分页类Page
  13. 人类一败涂地做图教程_人类一败涂地怎么捏人?自定义人物PS制作教程
  14. adblock过滤规则编写
  15. Python文件操作与PDF处理
  16. 如何让微信小程序弹窗滚动条设置在最上面
  17. CHIL-SQL-快速参考
  18. 电视剧 | 黑镜S5E2 碎片
  19. 【科研技巧】解决WPS中插入mathtype选项卡为灰色不能使用
  20. 不积跬步无以至千里,我与CSDN不平凡的2021年

热门文章

  1. git reset与git revert比較
  2. django初体验 学习笔记
  3. VC ++6.0英文版常用菜单使用参考【转载整理】
  4. javascript创建对象过程
  5. PHP中PDO方法fetch参数问题
  6. JS拖动技术--- 关于setCapture
  7. TED如何和压力做朋友(一)
  8. 一筐鸡蛋筐拿鸡蛋的问题
  9. 【VS2010学习笔记】【函数学习】二(SetTimer()函数)
  10. GEE学习总结(2)——点矢量绘制与坐标系问题