今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措施也很多,今天我用selenium在揍他一波。

整体看上去,煎蛋网的妹子图质量还是可以的,不是很多,但是还蛮有味道的,这可能也是爬虫er,一批一批的奔赴上去的原因。

1. 网站分析

这个网站如果用 selenium 爬取,其实也没什么要分析的,模拟访问就行,导入必备的模块。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from lxml import etree
import requestsimport time

我使用的是PhantomJS 去加载浏览器,关于这个PhantomJS,去互联网搜索一下吧,资料大把,会看的很爽的,总之呢,它可以模拟一个真实的浏览器做任何事情,得到你想要的数据。

browser = webdriver.PhantomJS()
browser.set_window_size(1366, 768)  # 这个地方需要设置一下浏览器的尺寸
wait = WebDriverWait(browser,10)
browser.get("http://jandan.net/ooxx")
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎

2. 分析数据

程序获取到数据之后就可以对数据进行处理了,编写一个get_content函数,用来处理网页源码。

def get_content():try:wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="comments"]/ol')))#print("正在爬取{}".format(browser.current_url))page_source = browser.page_source  # 获取网页源码html = etree.HTML(page_source)  # 解析源码imgs = html.xpath("//li[contains(@id,'comment')]//img/@src")  # 匹配图片download(imgs)except Exception as e:print("错误")print(e)finally:browser.close()

图片获取到之后,在上面的代码中,注意有一个地方调用了一个 download函数,这个函数就是用来下载图片的


def download(imgs):path = "./xxoo/{}"  # 路径我写死了for img in imgs:try:res = requests.get(img)content = res.contentexcept Exception as e:print(e)continuefile_name = img.split("/")[-1] # 获取文件名with open(path.format(file_name),"wb") as f:f.write(content)print(file_name,"成功下载文件")time.sleep(0.3)# 循环下载完毕,进行翻页操作 previous-comment-pagenext = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="comments"]//a[@class="previous-comment-page"]')))next.click()return get_content()  # 继续调用上面的网页源码分析流程
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎

Python爬虫入门教程【15】:煎蛋网XXOO图片抓取相关推荐

  1. Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取

    写在前面 很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都 ...

  2. Python爬虫入门教程 18-100 煎x网XO图片抓取

    1. 煎x网XO-写在前面 本文涉及的网址请查看评论区 很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎x网 敏感站点 ,这个网站其实还是有点意思的,网站很多人写了N多的教程了 ...

  3. Python爬虫入门【15】:煎蛋网XXOO图片抓取

    今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在 ...

  4. Python爬虫入门,煎蛋网XXOO图片抓取!

    今天写一个爬虫爱好者特别喜欢的网站煎蛋网 http://jandan.net/ooxx ,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下, ...

  5. 【Python】煎蛋网XXOO图片抓取

    今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在 ...

  6. Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取

    0. 51CTO学院写在前面 从今天开始的几篇文章,我将就国内目前比较主流的一些在线学习平台数据进行抓取,如果时间充足的情况下,会对他们进行一些简单的分析,好了,平台大概有51CTO学院,CSDN学院 ...

  7. Python爬虫入门教程15:音乐网站数据的爬取

    前言

  8. Python爬虫实战(四) :下载煎蛋网所有妹子照片

    煎蛋网是一个适合开车的网站,各种妹子福利图片. 网站:http://jandan.net/ooxx 里面有两种格式的图片:gif和jpg,写个程序将所有页面的妹子图全部下载下来. #coding=ut ...

  9. Python爬虫入门教程 4-100 美空网未登录图片爬取 1

    简介 上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工作中可能并不能给你增加多少有价值的技术点,因为它只是一套入门的教程,老鸟你自动绕过就可以了,或者带带我也行. ...

最新文章

  1. tf.keras.layers.MaxPool2D 最大池化层 示例
  2. lower() oracle,PLSQL LOWER用法及代码示例
  3. 用户用老版IE访问网站时的jquery提示插件
  4. wider face data 在 faster rcnn 上的实践记录(caffe)
  5. 九宫格C语言递归程序,[置顶] C语言递归实现N宫格(九宫格)源码
  6. 架构之:REST和HATEOAS
  7. 【C++进阶】 遵循TDD原则,实现平面向量类(Vec2D)
  8. Metropolis Light Transport学习与实现
  9. 简单的Spring配置文件
  10. 哥德巴赫猜想—初等数论课后习题
  11. 用计算机弹出少年的歌谱,最近很火《少年》的歌谱?
  12. S老师 Top-Down RPG Starter Kit 学习
  13. 林熙蕾和吴大维分手,和元大小开马维辰交往,真实性有待考验
  14. Kettle_使用资源库功能把ktr元数据统一存储到数据库中
  15. python竞赛猜名次_五人预测比赛结果均答对一半,求比赛名次
  16. 数组排序 向大佬低头 时间算法
  17. Android Activity向右滑动返回
  18. Qt使用漂亮的图标和字体(Font Awesome)————附代码实例
  19. 笔记:OpenCV之眨眼检测
  20. ONLYOFFICE 跨站脚本安全漏洞

热门文章

  1. 计算机系统结构 cpi,计算机系统结构作业答案第一章(张晨曦)
  2. linux运维高薪就业指导(新手获得高薪必备)
  3. 机器学习常见问题总结
  4. win10桌面右键闪屏
  5. QQ农场之新图鉴大国重器
  6. JVisualVM and JConsole
  7. Python破解WIFI的简单代码及密码本下载
  8. 精彩网页设计示例收藏
  9. 2022危险化学品经营单位主要负责人考试题及模拟考试
  10. wifi678响应超时服务器无应答,宽带连接时错误678如何办