【Python】煎蛋网XXOO图片抓取
今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx
,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措施也很多,今天我用selenium
在揍他一波。
整体看上去,煎蛋网的妹子图质量还是可以的,不是很多,但是还蛮有味道的,这可能也是爬虫er,一批一批的奔赴上去的原因。
1. 网站分析
这个网站如果用 selenium
爬取,其实也没什么要分析的,模拟访问就行,导入必备的模块。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from lxml import etree
import requestsimport time
我使用的是PhantomJS
去加载浏览器,关于这个PhantomJS
,去互联网搜索一下吧,资料大把,会看的很爽的,总之呢,它可以模拟一个真实的浏览器做任何事情,得到你想要的数据。
browser = webdriver.PhantomJS()
browser.set_window_size(1366, 768) # 这个地方需要设置一下浏览器的尺寸
wait = WebDriverWait(browser,10)
browser.get("http://jandan.net/ooxx")
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎
2. 分析数据
程序获取到数据之后就可以对数据进行处理了,编写一个get_content函数,用来处理网页源码。
def get_content():try:wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="comments"]/ol')))#print("正在爬取{}".format(browser.current_url))page_source = browser.page_source # 获取网页源码html = etree.HTML(page_source) # 解析源码imgs = html.xpath("//li[contains(@id,'comment')]//img/@src") # 匹配图片download(imgs)except Exception as e:print("错误")print(e)finally:browser.close()
图片获取到之后,在上面的代码中,注意有一个地方调用了一个 download
函数,这个函数就是用来下载图片的
def download(imgs):path = "./xxoo/{}" # 路径我写死了for img in imgs:try:res = requests.get(img)content = res.contentexcept Exception as e:print(e)continuefile_name = img.split("/")[-1] # 获取文件名with open(path.format(file_name),"wb") as f:f.write(content)print(file_name,"成功下载文件")time.sleep(0.3)# 循环下载完毕,进行翻页操作 previous-comment-pagenext = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="comments"]//a[@class="previous-comment-page"]')))next.click()return get_content() # 继续调用上面的网页源码分析流程
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎
【Python】煎蛋网XXOO图片抓取相关推荐
- Python爬虫入门【15】:煎蛋网XXOO图片抓取
今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在 ...
- Python爬虫入门教程【15】:煎蛋网XXOO图片抓取
今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在 ...
- Python爬虫入门,煎蛋网XXOO图片抓取!
今天写一个爬虫爱好者特别喜欢的网站煎蛋网 http://jandan.net/ooxx ,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下, ...
- Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取
写在前面 很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都 ...
- Python爬虫入门教程 18-100 煎x网XO图片抓取
1. 煎x网XO-写在前面 本文涉及的网址请查看评论区 很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎x网 敏感站点 ,这个网站其实还是有点意思的,网站很多人写了N多的教程了 ...
- python爬虫入门-煎蛋网妹子图片下载
知识点:多线程/BeautifulSoup/正则表达式/hashlib/base64/requests 参考: python爬虫之反爬虫情况下的煎蛋网图片爬取初步探索 煎蛋网的反扒用了个障眼法..首页 ...
- Python爬煎蛋网的图片——老司机的第一步
最近一直在看廖大的教程,但是看着看着,我好无聊啊,于是就去找了一些煎蛋(简单)的爬虫小知识,意外的打开了新世界的大门.啊哈,这下安逸咯~ 煎蛋说下代码 这个是主程序,可以看到链接以及页码,以及启动函数 ...
- python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- python爬图代码实例_Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
最新文章
- 散列表查找(哈希表)
- 简单mysql 查询_MySQL简单查询详解
- Spring 的微内核与FactoryBean扩展机制--转载
- 泊松图像融合(泊松融合)
- c++:MFC EDIT控件内容的四种处理方式使用(CEdit控件类型与CString 值联动)
- vue使用render渲染jsx
- arccatalog点要素显示不完,shp数据全图显示正常,放大要素不能显示的问题
- 兼容性测试之VMware
- ORACLE虚拟索引(Virtual Index)
- 《UML系统分析与设计》习题答案
- TcaplusDB X 光与夜之恋|来谈一场甜甜的恋爱
- Exp3 免杀原理与实践 20154328 常城
- HTML在手机端禁止放大缩小
- 怎么将abaqus的数据导出_abaqus系列之二维图形导出
- 揭开AI产品PRD的面纱 | 浅谈其和互联网产品PRD的异同
- 方正集团面试过程。。。
- web3:颠覆互联网还是白日梦一场?
- 2021 河北取证比武决赛个人赛 题解 入侵溯源
- 用U盘给macbook 安装windows系统
- ZUCC_计算机网络实验_实验04 VLAN配置
热门文章
- 台式计算机2017排行分析,台式电脑处理器哪个好?最新台式机CPU天梯图2017年10-11月版本...
- linux上mysql5.7忘记密码,Linux下Mysql5.7忘记密码
- 安卓 应用宝发布市场 签名注意事项
- android shell卸载应用程序,Android adb 查看已经安装的应用、安装应用、卸载应用...
- 计算机网络高校校园网设计思路,浅谈高校信息化校园网络设计及教育应用
- Ubuntu16.04系统安装后的基本设置以及系统优化
- 深入理解SerDes之一
- html弹出广告怎么设置,电脑弹出广告太多怎样设置拦截(两种工具)
- windows7家庭普通版升级旗舰版的方法
- 案例|即刻智能助力省专精特新企业数字化升级