今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措施也很多,今天我用selenium在揍他一波。

整体看上去,煎蛋网的妹子图质量还是可以的,不是很多,但是还蛮有味道的,这可能也是爬虫er,一批一批的奔赴上去的原因。

1. 网站分析

这个网站如果用 selenium 爬取,其实也没什么要分析的,模拟访问就行,导入必备的模块。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from lxml import etree
import requestsimport time

我使用的是PhantomJS 去加载浏览器,关于这个PhantomJS,去互联网搜索一下吧,资料大把,会看的很爽的,总之呢,它可以模拟一个真实的浏览器做任何事情,得到你想要的数据。

browser = webdriver.PhantomJS()
browser.set_window_size(1366, 768)  # 这个地方需要设置一下浏览器的尺寸
wait = WebDriverWait(browser,10)
browser.get("http://jandan.net/ooxx")
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎

2. 分析数据

程序获取到数据之后就可以对数据进行处理了,编写一个get_content函数,用来处理网页源码。

def get_content():try:wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="comments"]/ol')))#print("正在爬取{}".format(browser.current_url))page_source = browser.page_source  # 获取网页源码html = etree.HTML(page_source)  # 解析源码imgs = html.xpath("//li[contains(@id,'comment')]//img/@src")  # 匹配图片download(imgs)except Exception as e:print("错误")print(e)finally:browser.close()

图片获取到之后,在上面的代码中,注意有一个地方调用了一个 download函数,这个函数就是用来下载图片的


def download(imgs):path = "./xxoo/{}"  # 路径我写死了for img in imgs:try:res = requests.get(img)content = res.contentexcept Exception as e:print(e)continuefile_name = img.split("/")[-1] # 获取文件名with open(path.format(file_name),"wb") as f:f.write(content)print(file_name,"成功下载文件")time.sleep(0.3)# 循环下载完毕,进行翻页操作 previous-comment-pagenext = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="comments"]//a[@class="previous-comment-page"]')))next.click()return get_content()  # 继续调用上面的网页源码分析流程
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎

【Python】煎蛋网XXOO图片抓取相关推荐

  1. Python爬虫入门【15】:煎蛋网XXOO图片抓取

    今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在 ...

  2. Python爬虫入门教程【15】:煎蛋网XXOO图片抓取

    今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在 ...

  3. Python爬虫入门,煎蛋网XXOO图片抓取!

    今天写一个爬虫爱好者特别喜欢的网站煎蛋网 http://jandan.net/ooxx ,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下, ...

  4. Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取

    写在前面 很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都 ...

  5. Python爬虫入门教程 18-100 煎x网XO图片抓取

    1. 煎x网XO-写在前面 本文涉及的网址请查看评论区 很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎x网 敏感站点 ,这个网站其实还是有点意思的,网站很多人写了N多的教程了 ...

  6. python爬虫入门-煎蛋网妹子图片下载

    知识点:多线程/BeautifulSoup/正则表达式/hashlib/base64/requests 参考: python爬虫之反爬虫情况下的煎蛋网图片爬取初步探索 煎蛋网的反扒用了个障眼法..首页 ...

  7. Python爬煎蛋网的图片——老司机的第一步

    最近一直在看廖大的教程,但是看着看着,我好无聊啊,于是就去找了一些煎蛋(简单)的爬虫小知识,意外的打开了新世界的大门.啊哈,这下安逸咯~ 煎蛋说下代码 这个是主程序,可以看到链接以及页码,以及启动函数 ...

  8. python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  9. python爬图代码实例_Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

最新文章

  1. 散列表查找(哈希表)
  2. 简单mysql 查询_MySQL简单查询详解
  3. Spring 的微内核与FactoryBean扩展机制--转载
  4. 泊松图像融合(泊松融合)
  5. c++:MFC EDIT控件内容的四种处理方式使用(CEdit控件类型与CString 值联动)
  6. vue使用render渲染jsx
  7. arccatalog点要素显示不完,shp数据全图显示正常,放大要素不能显示的问题
  8. 兼容性测试之VMware
  9. ORACLE虚拟索引(Virtual Index)
  10. 《UML系统分析与设计》习题答案
  11. TcaplusDB X 光与夜之恋|来谈一场甜甜的恋爱
  12. Exp3 免杀原理与实践 20154328 常城
  13. HTML在手机端禁止放大缩小
  14. 怎么将abaqus的数据导出_abaqus系列之二维图形导出
  15. 揭开AI产品PRD的面纱 | 浅谈其和互联网产品PRD的异同
  16. 方正集团面试过程。。。
  17. web3:颠覆互联网还是白日梦一场?
  18. 2021 河北取证比武决赛个人赛 题解 入侵溯源
  19. 用U盘给macbook 安装windows系统
  20. ZUCC_计算机网络实验_实验04 VLAN配置

热门文章

  1. 台式计算机2017排行分析,台式电脑处理器哪个好?最新台式机CPU天梯图2017年10-11月版本...
  2. linux上mysql5.7忘记密码,Linux下Mysql5.7忘记密码
  3. 安卓 应用宝发布市场 签名注意事项
  4. android shell卸载应用程序,Android adb 查看已经安装的应用、安装应用、卸载应用...
  5. 计算机网络高校校园网设计思路,浅谈高校信息化校园网络设计及教育应用
  6. Ubuntu16.04系统安装后的基本设置以及系统优化
  7. 深入理解SerDes之一
  8. html弹出广告怎么设置,电脑弹出广告太多怎样设置拦截(两种工具)
  9. windows7家庭普通版升级旗舰版的方法
  10. 案例|即刻智能助力省专精特新企业数字化升级