前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者:merlin&

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入


操作环境

  • 编译器:pycharm社区版
  • python 版本:anaconda python3.7.4
  • 浏览器选择:Google浏览器

需要用到的第三方模块:requests , lxml , selenium , time , bs4,os

网页分析

  • 明确目标

首先我们打开腾讯动漫首页,分析要抓取的目标漫画。
找到腾讯动漫的漫画目录页,简单看了一下目录,发现全站的漫画数量超过了三千部(感觉就是爬下来也会把内存撑爆)

于是我觉得爬取首页的推荐漫画会是一个比较好的选择(爬取全站漫画只需要稍稍改一下网址构造就可以做到了)

  • 提取漫画地址

选定了对象之后,就应该想办法来搞到漫画的地址了
右击检查元素,粗略看一遍网页的源代码,这时我发现里面有很多连续的

标签,我猜测每部漫画的地址信息就存储在这些标签里面

随便打开一个《li》标签,点击里面包裹的链接地址会跳转到一个新的网页,这个网页正是我想要找的漫画地址,可以见得我的猜测是正确的,等到实际操作的时候再用表达式提取信息就非常容易了

  • 提取漫画章节地址

进入漫画的目录页,发现一页最多可以展示20章的漫画目录,要想更换显示还需要点击章节名上面的选项卡来显示其他章节的地址

接下来就需要我们来检查网页元素想办法来获取章节地址了,同样右击检查元素
在看到了源代码后,我发现了一个非常惊喜的事情,这个源码里面包含这所有的章节链接,而不是通过动态加载来展示的,这就省去了我们提取其他章节链接的功夫,只需要花心思提取漫画图片就可以了

这里每个《p》标签下包含了五个《a》标签,每个《li》标签下包含了四个《p》标签,而每个漫画的链接就存在每个《a》标签中,可以轻松通过语法来提取到每页的链接信息

  • 提取漫画图片

怎么将漫画的图片地址提取出来并保存到本地,这是这个代码的难点和核心
先是打开漫画,这个漫画页应该是被加上了某些措施,所以它没办法使用右键查看网页源代码,但是使用快捷键[ctrl + shift +i]是可以看到的

按下[ctrl + shift + i],检查元素

通过第一次检查,可以发现网页的元素中只有前几张图片的地址信息,后面的信息都为后缀.gif的文件表示,这些gif文件就是图片的加载动画

接着向下滑动到底部,等待图片全部显示出来再次检查元素

现在所有的漫画图片全部显示出来,下方并无.gif 的文件,由此可知,腾讯动漫是以js异步加载来显示图片的,要想获取页面的全部图片,就必须要滑动滚动条,将全部的图片加载完成再进行提取,这里我选择selenium模块和chromedriver来帮助我完成这些操作。下面开始进行代码的编写。

编写代码

  • 导入需要的模块
import requests
from lxml import etree
from selenium import webdriver     #selenium模拟操作
from time import sleep
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.options import Options        #谷歌无头浏览器
import os
  • 获取漫画地址

这里我使用的是xpath提取漫画地址信息,在谷歌浏览器中使用xpath helper插件辅助编写xpath表达式

#打开腾讯动漫首页
url = 'https://ac.qq.com/'
#给网页发送请求
data = requests.get(url).text
#将网页信息转换成xpath可识别的类型
html = etree.HTML(data)
#提取到每个漫画的目录页地址
comic_list = html.xpath('//a[@class="in-rank-name"]/@href')
print(comic_list)

print一下输出的comic_list,提取成功

  • 提取漫画的内容页

内容页的提取也很简单,就像上面的分析一样,使用简单的xpath语法即可提取

然后我们再将漫画的名字提取出来,方便为保存的文件夹命名

#遍历提取到的信息
for comic in comic_list:#拼接成为漫画目录页的网址comic_url = url + str(comic)#从漫画目录页提取信息url_data = requests.get(comic_url).text#准备用xpath语法提取信息data_comic = etree.HTML(url_data)#提取漫画名--text()为提取文本内容name_comic = data_comic.xpath("//h2[@class='works-intro-title ui-left']/strong/text()")#提取该漫画每一页的地址item_list = data_comic.xpath("//span[@class='works-chapter-item']/a/@href")print(name_comic)print(item_list)

print打印的信息:

  • 提取章节名

刚刚我们输出的是漫画页的地址字段,但是通过这些字段并不能请求到信息,还需在前面加上域名才可以构成一个完整的网址
提取章节名是为了在漫画名的文件夹下再为每个章节创建一个文件夹保存漫画图片

    for item in item_list:#拼接每一章节的地址item_url = url + str(item)#print(item_url)#请求每一章节的信息page_mes = requests.get(item_url).text#准备使用xpath提取内容page_ming = etree.HTML(page_mes)#提取章节名page_name = page_ming.xpath('//span[@class="title-comicHeading"]/text()')print(page_name)

打印章节名:

  • 获取漫画源网页代码

这个部分的代码是这个代码的核心部分,也是花费时间最久的部分
首先我们知道通过正常的方式没有办法请求到所有的图片地址信息,若是使用抓包方法会变得非常难分析,所以我采用的是模拟浏览器滑动的方法来获得图片的地址信息
为了方便看到结果,先将webdriver设置为有界面模式,等到实现想要的功能之后,再将它隐藏起来

        #webdriver位置path = r'/home/jmhao/chromedriver'#浏览器参数设置browser = webdriver.Chrome(executable_path=path)#开始请求第一个章节的网址browser.get(item_url)#设置延时,为后续做缓冲sleep(2)#尝试执行下列代码try:#设置自动下滑滚动条操作for i in range(1, 100):#滑动距离设置js = 'var q=document.getElementById("mainView").scrollTop = ' + str(i * 1000)#执行滑动选项browser.execute_script(js)#延时,使图片充分加载sleep(2)sleep(2)#将打开的界面截图保存,证明无界面浏览器确实打开了网页browser.get_screenshot_as_file(str(page_name) + ".png")#获取当前页面源码data = browser.page_source#在当前文件夹下创建html文件,并将网页源码写入fh = open("dongman.html", "w", encoding="utf-8")#写入操作fh.write(data)#关掉浏览器fh.close()# 若上述代码执行报错(大概率是由于付费漫画),则执行此部分代码except Exception as err:#跳过错误代码pass

运行之后会自动打开漫画的内容页,并拖动右侧的滑动条(模拟了手动操作,缓慢拖动是为了让图片充分加载),其中的sleep方法和网速有一定的关系,网速好的可以适当减少延时的时间,网速差可适当延长
在写拖动滑动条的代码时,我尝试了非常多种拖动写法,也模拟了按下方向键的操作,可是只有这一种方法使用成功了。我认为失败的原因可能是刚打开界面的时候会有一个导航条挡住滑块,导致无法定位到滑块的坐标(因为我用其他网页测试的时候都是可以拖动的)

使用的try是为了防止有一些章节会弹出付费窗口,导致程序报错,使后续无法运行,即遇到会报错的情况就跳过此段代码,执行except中的选项

这段程序运行完之后有一个dongman.html文件保存在当前文件夹下,里面就包含了所有图片的url,接下来只要读取这个文件的内容就可以提取到所有的漫画地址了

  • 下载漫画图片

当我们保存完网页的源代码之后,接下来的操作就变得简单了 我们要做的就是提取文件内容,将图片下载到本地

#用beautifulsoup打开本地文件html_new = BeautifulSoup(open('dongman.html', encoding='utf-8'), features='html.parser')#提取html文件中的主体部分soup = html_new.find(id="mainView")#设置变量i,方便为保存的图片命名i = 0#提取出主体部分中的img标签(因为图片地址保存在img标签中)for items in soup.find_all("img"):#提取图片地址信息item = items.get("src")#请求图片地址comic_pic = requests.get(item).content#print(comic_pic)#尝试提取图片,若发生错误则跳过try:#打开文件夹,将图片存入with open('comic/' + str(name_comic) + '/' + str(page_name) + '/' + str(i + 1) + '.jpg', 'wb') as f:#print('正在下载第 ', (i + 1), ' 张图片中')print('正在下载' , str(name_comic) , '-' , str(page_name) , '- 第' , (i+1) , '张图片')#写入操作f.write(comic_pic)#更改图片名,防止新下载的图片覆盖原图片i += 1#若上述代码执行报错,则执行此部分代码except Exception as err:#跳过错误代码pass
  • 下载结果

到了这里代码就写完了,来看一下运行结果:

打开文件夹看到:

完整代码

import requests
from lxml import etree
from selenium import webdriver
from time import sleep
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.options import Options
import os
'''
============================
python学习群:695185429
============================
'''
#打开腾讯动漫首页
url = 'https://ac.qq.com/'
#给网页发送请求
data = requests.get(url).text
#将网页信息转换成xpath可识别的类型
html = etree.HTML(data)
#提取到每个漫画的目录页地址
comic_list = html.xpath('//a[@class="in-rank-name"]/@href')
#print(comic_list)
#遍历提取到的信息
for comic in comic_list:#拼接成为漫画目录页的网址comic_url = url + str(comic)#从漫画目录页提取信息url_data = requests.get(comic_url).text#准备用xpath语法提取信息data_comic = etree.HTML(url_data)#提取漫画名--text()为提取文本内容name_comic = data_comic.xpath("//h2[@class='works-intro-title ui-left']/strong/text()")#提取该漫画每一页的地址item_list = data_comic.xpath("//span[@class='works-chapter-item']/a/@href")# print(name_comic)# print(item_list)#以漫画名字为文件夹名创建文件夹os.makedirs('comic/' + str(name_comic))#将一本漫画的每一章地址遍历for item in item_list:#拼接每一章节的地址item_url = url + str(item)#print(item_url)#请求每一章节的信息page_mes = requests.get(item_url).text#准备使用xpath提取内容page_ming = etree.HTML(page_mes)#提取章节名page_name = page_ming.xpath('//span[@class="title-comicHeading"]/text()')#print(page_name)#再以章节名命名一个文件夹os.makedirs('comic/' + str(name_comic) + '/' + str(page_name))#以下为代码的主体部分#设置谷歌无界面浏览器chrome_options = Options()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')#webdriver位置path = r'/home/jmhao/chromedriver'#浏览器参数设置browser = webdriver.Chrome(executable_path=path, options=chrome_options)#开始请求第一个章节的网址browser.get(item_url)#设置延时,为后续做缓冲sleep(2)#browser.get_screenshot_as_file(str(page_name) + ".png")#尝试执行下列代码try:#设置自动下滑滚动条操作for i in range(1, 100):#滑动距离设置js = 'var q=document.getElementById("mainView").scrollTop = ' + str(i * 1000)#执行滑动选项browser.execute_script(js)#延时,使图片充分加载sleep(2)sleep(2)#将打开的界面截图保存,证明无界面浏览器确实打开了网页browser.get_screenshot_as_file(str(page_name) + ".png")#获取当前页面源码data = browser.page_source#在当前文件夹下创建html文件,并将网页源码写入fh = open("dongman.html", "w", encoding="utf-8")#写入操作fh.write(data)#关掉无界面浏览器fh.close()#下面的操作为打开保存的html文件,提取其中的图片信息,并保存到文件夹中#用beautifulsoup打开本地文件html_new = BeautifulSoup(open('dongman.html', encoding='utf-8'), features='html.parser')#提取html文件中的主体部分soup = html_new.find(id="mainView")#设置变量i,方便为保存的图片命名i = 0#提取出主体部分中的img标签(因为图片地址保存在img标签中)for items in soup.find_all("img"):#提取图片地址信息item = items.get("src")#请求图片地址comic_pic = requests.get(item).content#print(comic_pic)#尝试提取图片,若发生错误则跳过try:#打开文件夹,将图片存入with open('comic/' + str(name_comic) + '/' + str(page_name) + '/' + str(i + 1) + '.jpg', 'wb') as f:#print('正在下载第 ', (i + 1), ' 张图片中')print('正在下载' , str(name_comic) , '-' , str(page_name) , '- 第' , (i+1) , '张图片')#写入操作f.write(comic_pic)#更改图片名,防止新下载的图片覆盖原图片i += 1#若上述代码执行报错,则执行此部分代码except Exception as err:#跳过错误代码pass# 若上述代码执行报错(大概率是由于付费漫画),则执行此部分代码except Exception as err:#跳过错误代码pass

Python爬取腾讯动漫全站漫画详细教程(附带源码)相关推荐

  1. Python爬虫---爬取腾讯动漫全站漫画

    Python爬虫---爬取腾讯动漫全站漫画 操作环境 网页分析 明确目标 提取漫画地址 提取漫画章节地址 提取漫画图片 编写代码 导入需要的模块 获取漫画地址 提取漫画的内容页 提取章节名 获取漫画源 ...

  2. python爬取付费漫画_Python爬虫---爬取腾讯动漫全站漫画

    标签,我猜测每部漫画的地址信息就存储在这些标签里面 随便打开一个<li>标签,点击里面包裹的链接地址会跳转到一个新的网页,这个网页正是我想要找的漫画地址,可以见得我的猜测是正确的,等到实际 ...

  3. Python爬取新闻标题及链接存至 Excel(含源码)

    新闻网址: https://www.tsinghua.edu.cn/news.htm 本片文章实现爬取新闻标题和链接 将新闻标题及链接存储至 Excel 表 源码 # 清华新闻import panda ...

  4. Python 爬虫 携程池 爬取腾讯动漫

    简介 主要爬取腾讯动漫上某一漫画的所有图片的url 所用到的库 分析腾讯动漫网址 代码 所用到的库 gevent gevent.pool requests selenium xpath 分析腾讯动漫 ...

  5. 使用selenium爬取腾讯动漫!国漫也有好看的!

    前言 本来只是想学习一下selenium模块的简单使用,然后一直添加功能,感觉能把它变成一个项目了,于是乎,就有了这篇文章 写得很烂,速度很慢,但不影响这是我的第一次尝试,如果师傅们花时间看看我的代码 ...

  6. python爬取2019年计算机就业_2019年最新Python爬取腾讯招聘网信息代码解析

    原标题:2019年最新Python爬取腾讯招聘网信息代码解析 前言 初学Python的小伙们在入门的时候感觉这门语言有很大的难度,但是他的用处是非常广泛的,在这里将通过实例代码讲解如何通过Python ...

  7. python爬取腾讯视频会员V力值

    python爬取腾讯视频会员V力值 练练手,只需要将cookies改成自己的 便即可运行. from bs4 import BeautifulSoup import requests import r ...

  8. 使用selenium爬取腾讯动漫

    文章目录 前言 一.Download.py 1.导入模块 2.构造Download类 3.Download 类中的函数 (1)login() (2)loading() (3)comic_info() ...

  9. python爬取腾讯视频弹幕_用Python爬取腾讯视频弹幕

    原标题:用Python爬取腾讯视频弹幕 via:菜J学Python 1.网页分析 本文以爬取<脱口秀大会 第3季>最后一期视频弹幕为例,首先通过以下步骤找到存放弹幕的真实url. 通过删减 ...

最新文章

  1. 【Python之旅】第五篇(一):Python Socket通信原理
  2. sql join on 多表连接_SQL 多表查询-交叉连接(笛卡尔积)
  3. qa 芯片测试_智能硬件产品的测试经验总结
  4. 记录一个海思TOE的BUG
  5. java.lang.unsatisfiedlinkerror:_java.lang.UnsatisfiedLinkError: 的问题
  6. 计算机系统操作在线作业,电子科大《计算机操作系统》在线作业3
  7. mysql+distinct+max_MySQL中distinct与group by之间的性能进行比较
  8. ASP.NET MVC3禁用页面请求验证
  9. MySQL中Checkpoint技术
  10. android字体等宽,Android等宽字体大小
  11. 基于 libdmtx和zxing的DM二维码识别总结
  12. android 微信 导出,微信好友怎么导出excel?微信导出原来这么简单
  13. 日志易——中国版的splunk
  14. php ctype xdigit,PHP ctype_xdigit()用法及代码示例
  15. 正态分布t个标准差范围内的概率
  16. repo命令无法从gooole的网站下载问题解决办法
  17. windows2008 RD授权管理器下空的没服务器(授权管理器无法链接到许可证服务器)问题处理...
  18. 图注意力网络GRAPH ATTENTION NETWORKS(gat)浅读
  19. Balanced Substring
  20. [源码解析] 深度学习流水线并行 PipeDream(6)--- 1F1B策略

热门文章

  1. 共享打印机后其他计算机搜索不到,打印机共享之后,为什么其他电脑还是搜索不到...
  2. Java的正确使用方式
  3. python 使用xlsx和pandas处理Excel表格
  4. 计算机桌面管控系统,金盾桌面安全管理系统
  5. JAVA中去掉字符串中的空格
  6. Web安全工具 爬行蜘蛛WebRobot爬行菜刀获取网站目录敏感文件
  7. 将 Flutter 应用程序连接到 BLE 设备并监听数据
  8. 铁道部称火车票二维码已被强加密
  9. SQL Server(MSSQLSERVER)无法启动问题解决
  10. LM358D比较器的作用