python selenium爬取kuku漫画

在爬取这个网站之前，试过爬取其他网站的漫画，但是发现有很多反爬虫的限制，有的图片后面加了动态参数，每秒都会更新，所以前一秒爬取的图片链接到一下秒就会失效了，还有的是图片地址不变，但是访问次数频繁的话会返回403，终于找到一个没有限制的漫画网站，演示一下selenium爬虫

# -*- coding:utf-8 -*-
# crawl kuku漫画
__author__='fengzhankui'
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
import os
import urllib2
import chrom
class getManhua(object):def __init__(self):self.num=5self.starturl='http://comic.kukudm.com/comiclist/2154/51850/1.htm'self.browser=self.getBrowser()self.getPic(self.browser)def getBrowser(self):dcap = dict(DesiredCapabilities.PHANTOMJS)dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36")browser=webdriver.PhantomJS(desired_capabilities=dcap)try:browser.get(self.starturl)except:print 'open url fail'browser.implicitly_wait(20)return browserdef getPic(self,browser):cartoonTitle = browser.title.split('_')[0]self.createDir(cartoonTitle)os.chdir(cartoonTitle)for i in range(1,self.num):i=str(i)imgurl = browser.find_element_by_tag_name('img').get_attribute('src')print imgurlwith open('page'+i+'.jpg','wb') as fp:agent = chrom.pcUserAgent.get('Firefox 4.0.1 - Windows')request=urllib2.Request(imgurl)request.add_header(agent.split(':',1)[0],agent.split(':',1)[0])response=urllib2.urlopen(request)fp.write(response.read())print 'page'+i+'success'NextTag = browser.find_elements_by_tag_name('a')[-1].get_attribute('href')browser.get(NextTag)browser.implicitly_wait(20)def createDir(self,cartoonTitle):if os.path.exists(cartoonTitle):print 'exists'else:os.mkdir(cartoonTitle)
if __name__=='__main__':getManhua()

对了应对反爬虫的机制，我在selenium和urllib2分别加了请求参数，反正网站通过过滤请求的方式将爬虫过滤掉，在这里仅爬取了开始url往下的5页，而且为了防止图片和网络延时，设置20秒了等待时间，刚开始运行时间会稍微有点长，需要等待。

运行过程如图所示

转载于:https://blog.51cto.com/fengzhankui/1946775

python selenium爬取kuku漫画相关推荐

python爬取付费漫画_python selenium爬取kuku漫画
在爬取这个网站之前,试过爬取其他网站的漫画,但是发现有很多反爬虫的限制,有的图片后面加了动态参数,每秒都会更新,所以前一秒爬取的图片链接到一下秒就会失效了,还有的是图片地址不变,但是访问次数频繁的话会 ...
python爬取网易云歌单_详解python selenium 爬取网易云音乐歌单名
目标网站: 首先获取第一页的数据,这里关键要切换到iframe里打印一下获取剩下的页数,这里在点击下一页之前需要设置一个延迟,不然会报错. 结果: 一共37页,爬取完毕后关闭浏览器完整代码: u ...
用 Python selenium爬取股票新闻并存入mysql数据库中带翻页功能demo可下载
用 Python selenium爬取实时股票新闻并存入mysql数据库中 1.分析需求 2.创建表 3.分析需要爬取的网页内容 4.python里面selenium进行爬虫操作 1.添加包 2.连接 ...
Python+Selenium爬取新浪微博评论数据
Python+Selenium爬取指定新浪微博的数据微博分析微博端类型选择爬取对象 Ajax动态加载数据分析 Python实现代码微博分析微博端类型首先找到一个待爬取的微博,需要注意的是, ...
python selenium爬取去哪儿网的酒店信息——详细步骤及代码实现
目录准备工作一.webdriver部分二.定位到新页面三.提取酒店信息 ??这里要注意?? 四.输出结果五.全部代码准备工作 1.pip install selenium 2.配置浏览器驱 ...
使用python+selenium爬取同城旅游网机票信息
最近使用python+selenium爬取了同城旅游网机票信息相关主要代码如下,通过模拟人为操作,拿下了这个机票列表的html代码,然后就可以使用xpath或者re等方式从中提取需要的字段信息了. ...
利用python+selenium爬取derwent数据库上的patents
利用python+selenium爬取derwent数据库上的patents 需求: 登陆web of science,并进入derwent数据库,按照公司excel列表依次进行搜索,并将所有搜索道德 ...
Python + selenium 爬取淘宝商品列表及商品评论 2021-08-26
Python + selenium 爬取淘宝商品列表及商品评论[2021-08-26] 主要内容登录淘宝获取商品列表获取评论信息存入数据库需要提醒主要内容通过python3.8+ sel ...
python selenium 爬取去哪儿网的数据
python selenium 爬取去哪儿网的数据完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/selenium+qu ...

python selenium爬取kuku漫画

python selenium爬取kuku漫画相关推荐

最新文章

热门文章