在爬取这个网站之前,试过爬取其他网站的漫画,但是发现有很多反爬虫的限制,有的图片后面加了动态参数,每秒都会更新,所以前一秒爬取的图片链接到一下秒就会失效了,还有的是图片地址不变,但是访问次数频繁的话会返回403,终于找到一个没有限制的漫画网站,演示一下selenium爬虫

# -*- coding:utf-8 -*-
# crawl kuku漫画
__author__='fengzhankui'
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
import os
import urllib2
import chrom
class getManhua(object):def __init__(self):self.num=5self.starturl='http://comic.kukudm.com/comiclist/2154/51850/1.htm'self.browser=self.getBrowser()self.getPic(self.browser)def getBrowser(self):dcap = dict(DesiredCapabilities.PHANTOMJS)dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36")browser=webdriver.PhantomJS(desired_capabilities=dcap)try:browser.get(self.starturl)except:print 'open url fail'browser.implicitly_wait(20)return browserdef getPic(self,browser):cartoonTitle = browser.title.split('_')[0]self.createDir(cartoonTitle)os.chdir(cartoonTitle)for i in range(1,self.num):i=str(i)imgurl = browser.find_element_by_tag_name('img').get_attribute('src')print imgurlwith open('page'+i+'.jpg','wb') as fp:agent = chrom.pcUserAgent.get('Firefox 4.0.1 - Windows')request=urllib2.Request(imgurl)request.add_header(agent.split(':',1)[0],agent.split(':',1)[0])response=urllib2.urlopen(request)fp.write(response.read())print 'page'+i+'success'NextTag = browser.find_elements_by_tag_name('a')[-1].get_attribute('href')browser.get(NextTag)browser.implicitly_wait(20)def createDir(self,cartoonTitle):if os.path.exists(cartoonTitle):print 'exists'else:os.mkdir(cartoonTitle)
if __name__=='__main__':getManhua()

对了应对反爬虫的机制,我在selenium和urllib2分别加了请求参数,反正网站通过过滤请求的方式将爬虫过滤掉,在这里仅爬取了开始url往下的5页,而且为了防止图片和网络延时,设置20秒了等待时间,刚开始运行时间会稍微有点长,需要等待。

运行过程如图所示

转载于:https://blog.51cto.com/fengzhankui/1946775

python selenium爬取kuku漫画相关推荐

  1. python爬取付费漫画_python selenium爬取kuku漫画

    在爬取这个网站之前,试过爬取其他网站的漫画,但是发现有很多反爬虫的限制,有的图片后面加了动态参数,每秒都会更新,所以前一秒爬取的图片链接到一下秒就会失效了,还有的是图片地址不变,但是访问次数频繁的话会 ...

  2. python爬取网易云歌单_详解python selenium 爬取网易云音乐歌单名

    目标网站: 首先获取第一页的数据,这里关键要切换到iframe里 打印一下 获取剩下的页数,这里在点击下一页之前需要设置一个延迟,不然会报错. 结果: 一共37页,爬取完毕后关闭浏览器 完整代码: u ...

  3. 用 Python selenium爬取股票新闻并存入mysql数据库中带翻页功能demo可下载

    用 Python selenium爬取实时股票新闻并存入mysql数据库中 1.分析需求 2.创建表 3.分析需要爬取的网页内容 4.python里面selenium进行爬虫操作 1.添加包 2.连接 ...

  4. Python+Selenium爬取新浪微博评论数据

    Python+Selenium爬取指定新浪微博的数据 微博分析 微博端类型 选择爬取对象 Ajax动态加载数据分析 Python实现代码 微博分析 微博端类型 首先找到一个待爬取的微博,需要注意的是, ...

  5. python selenium爬取去哪儿网的酒店信息——详细步骤及代码实现

    目录 准备工作 一.webdriver部分 二.定位到新页面 三.提取酒店信息 ??这里要注意?? 四.输出结果 五.全部代码 准备工作 1.pip install selenium 2.配置浏览器驱 ...

  6. 使用python+selenium爬取同城旅游网机票信息

    最近使用python+selenium爬取了同城旅游网机票信息 相关主要代码如下,通过模拟人为操作,拿下了这个机票列表的html代码,然后就可以使用xpath或者re等方式从中提取需要的字段信息了. ...

  7. 利用python+selenium爬取derwent数据库上的patents

    利用python+selenium爬取derwent数据库上的patents 需求: 登陆web of science,并进入derwent数据库,按照公司excel列表依次进行搜索,并将所有搜索道德 ...

  8. Python + selenium 爬取淘宝商品列表及商品评论 2021-08-26

    Python + selenium 爬取淘宝商品列表及商品评论[2021-08-26] 主要内容 登录淘宝 获取商品列表 获取评论信息 存入数据库 需要提醒 主要内容 通过python3.8+ sel ...

  9. python selenium 爬取去哪儿网的数据

    python selenium 爬取去哪儿网的数据 完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/selenium+qu ...

最新文章

  1. win10 系统怎么获取最高管理员权限删除文件
  2. JMP跳转指令的指令长度、直接转移与间接转移、段内跳转与段间跳转
  3. 学会这几招设计思维让平面设计上一大台阶
  4. Centos 升级MySQL版本或者Yum安装Mysql5.6
  5. CCS5连接调试C64X系列DSP核
  6. [译] APT分析报告:03.OpBlueRaven揭露APT组织Fin7/Carbanak(上)Tirion恶意软件
  7. Cortex M3存储器映射
  8. 个人家用nas_NAS不会用?NAS真的很难操作吗?可能是你没选对!
  9. java离职证明模板_如何写出月薪过万的Java开发简历-附加模板
  10. Enterprise Library 系列教程
  11. .NET简谈设计模式之(命令模式)
  12. python之numpy基础_Python之Numpy操作基础
  13. JS - javascript容错处理代码
  14. 蓝桥杯 Fibonacci数列求余数 C语言版本
  15. 第十二章 采购管理 采购合同类型以及其区别 合同类型与风险分担 自制与外购分析 招标文件 工作说明书(SOW) 工作大纲 (TOR) 投标人会议 采购谈判 检查 审计 索赔管理 采购合同争议解决方式对
  16. 互联网公司总部选址分布:后厂村就是半个中国互联网
  17. 详解ArcGIS Server瓦片合并
  18. 微信Android客户端的ANR监控方案
  19. 宗镜录略讲——南怀瑾老师——系列11
  20. idc数据中心托管服务器需要注意的事项有哪些

热门文章

  1. 多种马尔可夫链预测方法
  2. 设计模式——行为型模式之责任链模式(简简单单入门责任链,理解I/O流消息怎么逐步传递处理以及服务器框架转发)
  3. mysql 不用斯芬克斯 全局模糊匹配 查询
  4. PHPcmsv9采集免规则PHPcmsv9采集
  5. 2021年安全员-C证(江西省)考试题库及安全员-C证(江西省)考试技巧
  6. python tell_Python 文件 tell() 使用方法及示例
  7. HTML/XML转义字符对照表
  8. VMware的几种网络类型
  9. Python核心编程16 ----- 文件的打开(读取),修改,关闭,二进制
  10. 趣店纽交所上市,市值近百亿美金;百度国际事业部将独立分拆;摩拜单车进入韩国水原市丨价值早报