Python爬虫---爬取腾讯动漫全站漫画
Python爬虫---爬取腾讯动漫全站漫画
- 操作环境
- 网页分析
- 明确目标
- 提取漫画地址
- 提取漫画章节地址
- 提取漫画图片
- 编写代码
- 导入需要的模块
- 获取漫画地址
- 提取漫画的内容页
- 提取章节名
- 获取漫画源网页代码
- 下载漫画图片
- 下载结果
- 完整代码
操作环境
- 编译器:pycharm社区版
- python 版本:anaconda python3.7.4
- 浏览器选择:Google浏览器
- 需要用到的第三方模块:requests , lxml , selenium , time , bs4,os
网页分析
明确目标
首先我们打开腾讯动漫首页,分析要抓取的目标漫画。
找到腾讯动漫的漫画目录页,简单看了一下目录,发现全站的漫画数量超过了三千部(感觉就是爬下来也会把内存撑爆)
于是我觉得爬取首页的推荐漫画会是一个比较好的选择(爬取全站漫画只需要稍稍改一下网址构造就可以做到了)
提取漫画地址
选定了对象之后,就应该想办法来搞到漫画的地址了
右击检查元素,粗略看一遍网页的源代码,这时我发现里面有很多连续的
标签,我猜测每部漫画的地址信息就存储在这些标签里面
随便打开一个《li》标签,点击里面包裹的链接地址会跳转到一个新的网页,这个网页正是我想要找的漫画地址,可以见得我的猜测是正确的,等到实际操作的时候再用表达式提取信息就非常容易了。
提取漫画章节地址
进入漫画的目录页,发现一页最多可以展示20章的漫画目录,要想更换显示还需要点击章节名上面的选项卡来显示其他章节的地址
接下来就需要我们来检查网页元素想办法来获取章节地址了,同样右击检查元素
在看到了源代码后,我发现了一个非常惊喜的事情,这个源码里面包含这所有的章节链接,而不是通过动态加载来展示的,这就省去了我们提取其他章节链接的功夫,只需要花心思提取漫画图片就可以了。
这里每个《p》标签下包含了五个《a》标签,每个《li》标签下包含了四个《p》标签,而每个漫画的链接就存在每个《a》标签中,可以轻松通过语法来提取到每页的链接信息
提取漫画图片
怎么将漫画的图片地址提取出来并保存到本地,这是这个代码的难点和核心
先是打开漫画,这个漫画页应该是被加上了某些措施,所以它没办法使用右键查看网页源代码,但是使用快捷键[ctrl + shift +i]是可以看到的
按下[ctrl + shift + i],检查元素
通过第一次检查,可以发现网页的元素中只有前几张图片的地址信息,后面的信息都为后缀.gif的文件表示,这些gif文件就是图片的加载动画接着向下滑动到底部,等待图片全部显示出来再次检查元素
现在所有的漫画图片全部显示出来,下方并无.gif 的文件,由此可知,腾讯动漫是以js异步加载来显示图片的,要想获取页面的全部图片,就必须要滑动滚动条,将全部的图片加载完成再进行提取,这里我选择selenium模块和chromedriver来帮助我完成这些操作。下面开始进行代码的编写。
编写代码
导入需要的模块
import requests
from lxml import etree
from selenium import webdriver #selenium模拟操作
from time import sleep
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.options import Options #谷歌无头浏览器
import os
获取漫画地址
这里我使用的是xpath提取漫画地址信息,在谷歌浏览器中使用xpath helper插件辅助编写xpath表达式
#打开腾讯动漫首页
url = 'https://ac.qq.com/'
#给网页发送请求
data = requests.get(url).text
#将网页信息转换成xpath可识别的类型
html = etree.HTML(data)
#提取到每个漫画的目录页地址
comic_list = html.xpath('//a[@class="in-rank-name"]/@href')
print(comic_list)
print一下输出的comic_list,提取成功
提取漫画的内容页
内容页的提取也很简单,就像上面的分析一样,使用简单的xpath语法即可提取
然后我们再将漫画的名字提取出来,方便为保存的文件夹命名
#遍历提取到的信息
for comic in comic_list:#拼接成为漫画目录页的网址comic_url = url + str(comic)#从漫画目录页提取信息url_data = requests.get(comic_url).text#准备用xpath语法提取信息data_comic = etree.HTML(url_data)#提取漫画名--text()为提取文本内容name_comic = data_comic.xpath("//h2[@class='works-intro-title ui-left']/strong/text()")#提取该漫画每一页的地址item_list = data_comic.xpath("//span[@class='works-chapter-item']/a/@href")print(name_comic)print(item_list)
print打印的信息:
提取章节名
刚刚我们输出的是漫画页的地址字段,但是通过这些字段并不能请求到信息,还需在前面加上域名才可以构成一个完整的网址
提取章节名是为了在漫画名的文件夹下再为每个章节创建一个文件夹保存漫画图片
for item in item_list:#拼接每一章节的地址item_url = url + str(item)#print(item_url)#请求每一章节的信息page_mes = requests.get(item_url).text#准备使用xpath提取内容page_ming = etree.HTML(page_mes)#提取章节名page_name = page_ming.xpath('//span[@class="title-comicHeading"]/text()')print(page_name)
打印章节名:
获取漫画源网页代码
这个部分的代码是这个代码的核心部分,也是花费时间最久的部分
首先我们知道通过正常的方式没有办法请求到所有的图片地址信息,若是使用抓包方法会变得非常难分析,所以我采用的是模拟浏览器滑动的方法来获得图片的地址信息
为了方便看到结果,先将webdriver设置为有界面模式,等到实现想要的功能之后,再将它隐藏起来
#webdriver位置path = r'/home/jmhao/chromedriver'#浏览器参数设置browser = webdriver.Chrome(executable_path=path)#开始请求第一个章节的网址browser.get(item_url)#设置延时,为后续做缓冲sleep(2)#尝试执行下列代码try:#设置自动下滑滚动条操作for i in range(1, 100):#滑动距离设置js = 'var q=document.getElementById("mainView").scrollTop = ' + str(i * 1000)#执行滑动选项browser.execute_script(js)#延时,使图片充分加载sleep(2)sleep(2)#将打开的界面截图保存,证明无界面浏览器确实打开了网页browser.get_screenshot_as_file(str(page_name) + ".png")#获取当前页面源码data = browser.page_source#在当前文件夹下创建html文件,并将网页源码写入fh = open("dongman.html", "w", encoding="utf-8")#写入操作fh.write(data)#关掉浏览器fh.close()# 若上述代码执行报错(大概率是由于付费漫画),则执行此部分代码except Exception as err:#跳过错误代码pass
运行之后会自动打开漫画的内容页,并拖动右侧的滑动条(模拟了手动操作,缓慢拖动是为了让图片充分加载),其中的sleep方法和网速有一定的关系,网速好的可以适当减少延时的时间,网速差可适当延长
在写拖动滑动条的代码时,我尝试了非常多种拖动写法,也模拟了按下方向键的操作,可是只有这一种方法使用成功了。我认为失败的原因可能是刚打开界面的时候会有一个导航条挡住滑块,导致无法定位到滑块的坐标(因为我用其他网页测试的时候都是可以拖动的)
使用的try是为了防止有一些章节会弹出付费窗口,导致程序报错,使后续无法运行,即遇到会报错的情况就跳过此段代码,执行except中的选项
这段程序运行完之后有一个dongman.html文件保存在当前文件夹下,里面就包含了所有图片的url,接下来只要读取这个文件的内容就可以提取到所有的漫画地址了
下载漫画图片
当我们保存完网页的源代码之后,接下来的操作就变得简单了 我们要做的就是提取文件内容,将图片下载到本地
#用beautifulsoup打开本地文件html_new = BeautifulSoup(open('dongman.html', encoding='utf-8'), features='html.parser')#提取html文件中的主体部分soup = html_new.find(id="mainView")#设置变量i,方便为保存的图片命名i = 0#提取出主体部分中的img标签(因为图片地址保存在img标签中)for items in soup.find_all("img"):#提取图片地址信息item = items.get("src")#请求图片地址comic_pic = requests.get(item).content#print(comic_pic)#尝试提取图片,若发生错误则跳过try:#打开文件夹,将图片存入with open('comic/' + str(name_comic) + '/' + str(page_name) + '/' + str(i + 1) + '.jpg', 'wb') as f:#print('正在下载第 ', (i + 1), ' 张图片中')print('正在下载' , str(name_comic) , '-' , str(page_name) , '- 第' , (i+1) , '张图片')#写入操作f.write(comic_pic)#更改图片名,防止新下载的图片覆盖原图片i += 1#若上述代码执行报错,则执行此部分代码except Exception as err:#跳过错误代码pass
下载结果
到了这里代码就写完了,来看一下运行结果:
完整代码
import requests
from lxml import etree
from selenium import webdriver
from time import sleep
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.options import Options
import os#打开腾讯动漫首页
url = 'https://ac.qq.com/'
#给网页发送请求
data = requests.get(url).text
#将网页信息转换成xpath可识别的类型
html = etree.HTML(data)
#提取到每个漫画的目录页地址
comic_list = html.xpath('//a[@class="in-rank-name"]/@href')
#print(comic_list)
#遍历提取到的信息
for comic in comic_list:#拼接成为漫画目录页的网址comic_url = url + str(comic)#从漫画目录页提取信息url_data = requests.get(comic_url).text#准备用xpath语法提取信息data_comic = etree.HTML(url_data)#提取漫画名--text()为提取文本内容name_comic = data_comic.xpath("//h2[@class='works-intro-title ui-left']/strong/text()")#提取该漫画每一页的地址item_list = data_comic.xpath("//span[@class='works-chapter-item']/a/@href")# print(name_comic)# print(item_list)#以漫画名字为文件夹名创建文件夹os.makedirs('comic/' + str(name_comic))#将一本漫画的每一章地址遍历for item in item_list:#拼接每一章节的地址item_url = url + str(item)#print(item_url)#请求每一章节的信息page_mes = requests.get(item_url).text#准备使用xpath提取内容page_ming = etree.HTML(page_mes)#提取章节名page_name = page_ming.xpath('//span[@class="title-comicHeading"]/text()')#print(page_name)#再以章节名命名一个文件夹os.makedirs('comic/' + str(name_comic) + '/' + str(page_name))#以下为代码的主体部分#设置谷歌无界面浏览器chrome_options = Options()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')#webdriver位置path = r'/home/jmhao/chromedriver'#浏览器参数设置browser = webdriver.Chrome(executable_path=path, options=chrome_options)#开始请求第一个章节的网址browser.get(item_url)#设置延时,为后续做缓冲sleep(2)#browser.get_screenshot_as_file(str(page_name) + ".png")#尝试执行下列代码try:#设置自动下滑滚动条操作for i in range(1, 100):#滑动距离设置js = 'var q=document.getElementById("mainView").scrollTop = ' + str(i * 1000)#执行滑动选项browser.execute_script(js)#延时,使图片充分加载sleep(2)sleep(2)#将打开的界面截图保存,证明无界面浏览器确实打开了网页browser.get_screenshot_as_file(str(page_name) + ".png")#获取当前页面源码data = browser.page_source#在当前文件夹下创建html文件,并将网页源码写入fh = open("dongman.html", "w", encoding="utf-8")#写入操作fh.write(data)#关掉无界面浏览器fh.close()#下面的操作为打开保存的html文件,提取其中的图片信息,并保存到文件夹中#用beautifulsoup打开本地文件html_new = BeautifulSoup(open('dongman.html', encoding='utf-8'), features='html.parser')#提取html文件中的主体部分soup = html_new.find(id="mainView")#设置变量i,方便为保存的图片命名i = 0#提取出主体部分中的img标签(因为图片地址保存在img标签中)for items in soup.find_all("img"):#提取图片地址信息item = items.get("src")#请求图片地址comic_pic = requests.get(item).content#print(comic_pic)#尝试提取图片,若发生错误则跳过try:#打开文件夹,将图片存入with open('comic/' + str(name_comic) + '/' + str(page_name) + '/' + str(i + 1) + '.jpg', 'wb') as f:#print('正在下载第 ', (i + 1), ' 张图片中')print('正在下载' , str(name_comic) , '-' , str(page_name) , '- 第' , (i+1) , '张图片')#写入操作f.write(comic_pic)#更改图片名,防止新下载的图片覆盖原图片i += 1#若上述代码执行报错,则执行此部分代码except Exception as err:#跳过错误代码pass# 若上述代码执行报错(大概率是由于付费漫画),则执行此部分代码except Exception as err:#跳过错误代码pass
最后,感谢您的阅读。您的每个点赞、留言、分享都是对我们最大的鼓励,笔芯~
如有疑问,欢迎在评论区一起讨论!
Python爬虫---爬取腾讯动漫全站漫画相关推荐
- python爬取付费漫画_Python爬虫---爬取腾讯动漫全站漫画
标签,我猜测每部漫画的地址信息就存储在这些标签里面 随便打开一个<li>标签,点击里面包裹的链接地址会跳转到一个新的网页,这个网页正是我想要找的漫画地址,可以见得我的猜测是正确的,等到实际 ...
- Python爬取腾讯动漫全站漫画详细教程(附带源码)
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:merlin& PS:如有需要Python学习资料的小伙伴可 ...
- Python爬虫 爬取腾讯视频评论内容
Python爬虫 爬取腾讯视频评论内容 腾讯视频评论内容在源码里是不可见,所以要使用抓包分析. 可安装fiddler代理服务器实现. 下面爬了腾讯视频评论内容(不包括回复),及发表评论者的id.昵称和 ...
- python爬虫爬取腾讯网站——实时疫情数据并生成Excel表格
一.基本介绍: 开发背景:自从2020年新冠疫情发生后,至今为止的相关疫情数据新闻已经是非常的巨大了,我们无时不在在用数据尝试帮助我们解剖全球的疫情状况.由此可见,新冠疫情数据的新闻报道数量与国内疫情 ...
- Python爬虫-爬取腾讯小视频
这两天在爬TX的视频的原始下载地址,遇到的问题挺多,感觉这个网站的规律变化多端的,中间也忘了修改过多少次代码了,而且有时候抓包也抓不到一些想要的内容,最后也只能抓到一些像<拜托啦学妹>.& ...
- python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)
废话不多说,直接贴代码,主要采用BeautifulSoup写的 #coding:utf8from bs4 import BeautifulSoup import urllib2 import urll ...
- Python 爬虫 携程池 爬取腾讯动漫
简介 主要爬取腾讯动漫上某一漫画的所有图片的url 所用到的库 分析腾讯动漫网址 代码 所用到的库 gevent gevent.pool requests selenium xpath 分析腾讯动漫 ...
- 使用selenium爬取腾讯动漫!国漫也有好看的!
前言 本来只是想学习一下selenium模块的简单使用,然后一直添加功能,感觉能把它变成一个项目了,于是乎,就有了这篇文章 写得很烂,速度很慢,但不影响这是我的第一次尝试,如果师傅们花时间看看我的代码 ...
- 【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2)...
[爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...
最新文章
- 八种基本类型的包装类你真的懂了?
- Jquery的集合方法EACH()
- Thinkpad在Windows8上热键的解决方案
- C++类的静态成员详解
- el-table 行背景颜色_用手机拍花卉怎样使背景变黑?
- 进击的数据中台,企业数字化转型的新引擎
- 漫谈软件研发特种部队之中的一个
- 轻量级MVC框架(自行开发)
- 20191203每日一句
- PHP自动加载(下)——PSR4
- 更换苹果推送服务证书Apple Push Services Certificate
- php 协成wifi_2016最新协成wifi认证系统二次开发版源码 支持中文ssid 无加密无限制...
- 【读书】少有人走的路---自律(斯科特 派克)
- 112A.Petya and Strings
- 【BZOJ1818】【CQOI2010】【XSY2428】内部白点(树状数组+扫描线)
- python拿到股票代码和代码名称等基本信息
- Codeforces 776B 776C 程序(夏洛克专场)
- IE浏览器通过JS提交表单时报错拒绝访问
- CA证书原理(转载)
- 传奇服务器 传奇行会文件夹在哪里,传奇服务端Mirserver下面的各个文件夹用途说明...
热门文章
- runtime无法执行grep_Runtime.getRuntime.exec()执行linux脚本导致程序卡死有关问题
- 解决中文名单按拼音排序的问题
- goaheadlinux移植_goahead(嵌入式Web服务器)之交叉编译、移植篇
- idea鼠标放大字体设置
- 怎么看apache443端口是否打开_win7如何打开443端口
- 2022年湖南省临床执业医师考试第三单元综合(二)
- 第四题:输入某年某月某日,判断这一天是这一年的第几天?
- Apple Catching
- Python使用RMF聚类分析客户价值
- rmf 文件如何打开?