本人也刚学,本帖水平含量不高,有什么问题请指教

想要编写一个爬虫,不管用什么语言最重要的都是先获取所需要的内容在网页中的位置,

就是说我们要获取到他的唯一标识,就比如根据标签的id或class,id和class获取的区别在于,id是唯一的,所以只会获取到一条数据,而class则不一样,一个页面可能会有多条class,

所以如果要根据class获取数据,你需要找到你所需要的数据在第几个class,当然除了根据id我们也可以根据标签名来获取,这个就更加宽泛了,接下来我们以爬取漫画为例,手把手写一个爬虫,手把手奥(明确暗示)

1.首先我们找到要爬取的漫画网站我这里以https://m.gufengmh8.com/为例,截图为搜索页面,可以看到网址为https://m.gufengmh8.com/search/?keywords=完美世界

keywords后面跟的就是要搜索的内容,然后我们获取url的方式就可以是这样

[Python] 纯文本查看 复制代码

2.然后我们开始对这个页面进行剖析,我们要获取的内容有哪些呢,在这里就不写太复杂,只爬取漫画名供用户选择就行,毕竟同名的漫画也不多嘛(其实就是太懒)

浏览器按f12进入代码调试,单击下图位置,然后可以看到class为itemBox,所以我们只需要获取到这个页面所有的class为itemBox的div,就可以获取每本漫画的所有信息,

在这里只取漫画名,再用小箭头点击漫画名,可以看到a标签下的就是要获取的漫画名,所以逻辑就清晰了,先获取class,然后遍历class获取到每个class中的itemTxt,然后再获取到itemTxt的第一个节点

然后现在我们的代码就变成这样

[Python] 纯文本查看 复制代码

执行后打印这样

[Python] 纯文本查看 复制代码

3.现在我们基本实现了搜索功能,这已经算是个简单爬虫了,之后让用户输入书籍序号,然后下载

我们随便点进去一本漫画,用之前的方式获取到id为chapter-list-1的ul包含了所有的章节,ul中的每一个li又包含一个a标签和span标签,分别是url和章节名,之后就可以继续写了

[Asm] 纯文本查看 复制代码

4.现在我们随便点入一个章节获取到漫画图片的位置

[Asm] 纯文本查看 复制代码

然后我们终于获取到了图片的src,但是还有个问题,他是分页的,所以。。

仔细钻研后发现如果当前页不存在时会显示这个图片,那我们就一直循环,直到获取的到的图片是这个时,结束循环,也就是这个样子↓

[Python] 纯文本查看 复制代码

5.然后我们获取到了所有的漫画图片src,现在就只需要把他下载下来了,先创建目录

[Python] 纯文本查看 复制代码

然后下载,很简单吧

[Python] 纯文本查看 复制代码

最后放出综合代码

[Python] 纯文本查看 复制代码

到这就结束了,不晓得有没有人会看我的文章呢,有没有呢,没有呢,有呢,呢~~~(明确暗示)

python如何爬取注释的网页_手把手教python爬取漫画(每一步都有注释)相关推荐

  1. 怎么批量在数字里加入网页_手把手教你爬取天堂网1920*1080大图片(批量下载)——理论篇

    /1 前言/ 平时我们要下载图片,要要一个一个点击下载是不是觉得很麻烦?那有没有更加简便的方法呢?答案是肯定的,这里我们以天堂网为例,批量下载天堂网的图片. /2 项目准备工作/ 首先 我们第一步我们 ...

  2. python 批量下载网页图片_手把手教你爬取天堂网1920*1080大图片(批量下载)——实战篇|python基础教程|python入门|python教程...

    https://www.xin3721.com/eschool/pythonxin3721/ /1 前言/ 上篇文章 手把手教你爬取天堂网1920*1080大图片(批量下载)--理论篇我们谈及了天堂网 ...

  3. python爬取app聊天信息_手把手教你爬取手机app中的信息

    使用工具:Fiddler+基础爬虫 Fiddler是一个抓包神器,用来检查电脑和互联网之间所有的通讯内容,而且比较简单容易上手,显示的格式也比较友好. 网页基本都会爬了,现在开始要想想如何去爬手机ap ...

  4. 50行python代码打造一款女友监控器_手把手教你50行Python代码,给心目中的女友微博秒评论...

    突然觉得,现在发微博已经成为当代青年的潮流,或分享自拍美照,或分享美食美景,小编的女朋友也不例外,平时爱分享一些我俩生活的趣事. 但是她最近开始给我抱怨我从来不给她的微博评论,我作为骨灰级" ...

  5. python代码在线回归中怎么运行_手把手教你用Python进行回归(附代码、学习资料)...

    原标题:手把手教你用Python进行回归(附代码.学习资料) 作者: GURCHETAN SINGH翻译:张逸校对:丁楠雅 本文共5800字,建议阅读8分钟. 本文从线性回归.多项式回归出发,带你用P ...

  6. python爬虫可以爬取个人信息吗_手把手教你利用Python网络爬虫获取旅游景点信息...

    爬虫系列: 当我们出去旅游时,会看这个地方有哪些旅游景点,景点价格.开放时间.用户的评论等. 本文基于Python网络爬虫技术,以hao123旅游网为例,获取旅游景点信息. 1.项目目标 获取网站的景 ...

  7. python爬取音乐源码_手把手教你使用Python抓取QQ音乐数据(第一弹)

    [一.项目目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二.需要的库] 主要涉及的库有:requests.json ...

  8. python开发一个自己的技术网站_手把手教你写网站:Python WEB开发技术实战

    摘要:本文详细介绍了Python WEB开发的基础入门.以一个博客站点的开发为例讲解了基于Django框架开发WEB站点的全过程.通过本文的学习可以快速掌握基于Django的Python WEB的开发 ...

  9. python卸载_手把手教Python环境安装

    Anaconda集成环境 Python3.7 如果是linux环境包括MacOs,系统环境中会默认安装python2.7. 尽量量不不要卸载linux环境中的默认python环境,直接安装Python ...

  10. python训练营 朋友圈广告如何发_手把手教你如何投放朋友圈广告

    微信朋友圈广告是基于微信公众号生态体系,以类似朋友的原创内容形式在用户朋友圈进行展示的原生广告.通过整合亿级优质用户流量,朋友圈广告为广告主提供了一个国内独一无二的互联网社交推广营销平台. 朋友圈广告 ...

最新文章

  1. Web测试介绍2一 安全测试
  2. 终于找到程序员无休止加班的原因了
  3. 关于winform屏蔽锁
  4. 再见 Feign!推荐一款微服务间调用神器,跟 SpringCloud 绝配!
  5. mybatis mysql schema_学习Mybatis与mysql数据库的示例笔记
  6. VC98\mfc\lib' specified in 'LIB environment variable' 系统找不到指定路径
  7. 4.PHP的运行方式
  8. mysql和虚拟主机区别_香港空间购买,香港虚拟主机购买,香港免备案空间购买
  9. html 属于mvvm框架,vue.js是mvvm框架吗
  10. 笔记本计算机没有没有显示无线网络连接,笔记本没有无线网络连接,教您笔记本没有无线网络连接...
  11. 苹果12系列不附赠耳机充电器引争议,你还会买吗?
  12. python 时间记录
  13. L3-020 至多删三个字符 (30 分)
  14. 重磅:第十二届中国西部国际资本论坛盛大举办,分布式存储行业备受瞩目!
  15. CentOS /Linux 开放80、8080端口或者开放某个端口
  16. 动手学PyTorch | (35) 长短期记忆(LSTM)
  17. 【无标题】灵遁者:一个好听的名字当然重要,因为这个名字代表你
  18. ios 系统状态栏样式修改_超简单!!! iOS设置状态栏、导航栏按钮、标题、颜色、透明度,偏移等...
  19. Java零基础_day01_课堂笔记
  20. 鸟哥私房菜第0章学习笔记

热门文章

  1. visual studio code写c语言是在include下有绿色的下划线提示not found
  2. python试卷管理系统的设计与实现_《数据结构》考试系统的设计与实现.doc
  3. 存储过程判断查询结果是否为空_vlookup查询为什么会出现#N/A?原来知道这6种解决方法这么重要...
  4. spark User class threw exception: java.lang.NoSuchMethodError
  5. java操作mysql实例 让代码跑起来
  6. python是不是都是英语_python为什么最近很流行?各种应用文档全是英文的吗?
  7. java 访问iis异常_在IIS中部署应用程序时无法访问Active Directory
  8. mysql 线程内存 回收_【MySQL】InnoDB后台线程与内存缓存池
  9. private访问权限java_Java 访问权限控制:public、private、protected
  10. linux 查看端口、进程情况及kill进程