(一)项目目标

本次要练习的目标时起点中文网里面的免费小说。

1. 如下图,找到免费小说的目录:

2. 点击更多后,随便找一本免费小说打开:

3. 点击中间的目录按钮,进入小说目录:

可以看到,该小说一共有83章,这就是本次目标。

(二)网页分析

1. 在目录页中点击一章,进入阅读页面,并同时检查网络,查看内容来源。

请注意下图中标注的三个部分:

2. 这样,我们找到了获取内容的请求。下面仔细分析该请求:

从上面截图可以看到,请求的类型是GET,url与页面url相同。

这样,只要通过页面url就能拿到小说这一章的数据。

那么,其他章的url从哪里可以获取呢?

3. 还是回到最初的目录页,审查元素,发现其中包含了所有章节的相对url。

4. 至此,网页分析完毕。思路如下:

- 通过目录页,拿到所有章节页面url

- 通过章节页面url,拿到小说原文。

(三) 核心代码实现

本次代码比较简单,我是直接用jupyter写的,下面将jupyter代码页面直接粘贴如下:

(四)结果展示

由于内容不多,大概程序在20秒左右执行完毕,打开Mongodb查看,爬取结果如下:

python爬虫——爬起点中文网小说相关推荐

  1. python爬虫获取起点中文网人气排行Top100(快速入门,新手必备!)

    本篇博客小菌为大家带来的是用python爬虫获取起点中文网人气排行Top100的分享,希望大家能在学习的过程中感受爬虫的魅力!         我们先根据网址https://www.qidian.co ...

  2. 爬虫实战——起点中文网小说的爬取

    首先打开起点中文网,网址为:https://www.qidian.com/ 本次实战目标是爬取一本名叫<大千界域>的小说,本次实战仅供交流学习,支持作者,请上起点中文网订阅观看. 我们首先 ...

  3. python爬虫爬取网络小说

    近日沉迷网络小说不能自拔的某人让我趁着网站限免把她想看的小说爬取下来,免得到时候又要付费看书,本来对于这种又要看正版又想占便宜不给钱的行为的我是深恶痛绝的,然而...为了小命我还是做一下吧.     ...

  4. Python爬虫爬取某小说网的教程(含全代码)#大佬勿喷

    1.主要使用三个库 import parsel import requests import os 2.利用parsel解析网页 3.利用os库保存一本小说 4.链接上 小说专题: https://w ...

  5. Python爬虫-爬取17K小说

    随笔记录方便自己和同路人查阅. #------------------------------------------------我是可耻的分割线--------------------------- ...

  6. 如何用python爬虫爬取网络小说?

    这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节的URL. 分析了该小说的目录页htt ...

  7. python爬虫之爬取起点中文网小说

    python爬虫之爬取起点中文网小说 hello大家好,这篇文章带大家来制作一个python爬虫爬取阅文集团旗下产品起点中文网的程序,这篇文章的灵感来源于本人制作的一个项目:电脑助手 启帆助手 ⬆是项 ...

  8. python 爬虫抓取网页数据导出excel_Python爬虫|爬取起点中文网小说信息保存到Excel...

    前言: 爬取起点中文网全部小说基本信息,小说名.作者.类别.连载\完结情况.简介,并将爬取的数据存储与EXCEL表中 环境:Python3.7 PyCharm Chrome浏览器 主要模块:xlwt ...

  9. Python爬虫爬取纵横中文网小说

    Python爬虫爬取纵横中文网小说 学了一周的爬虫,搞了这个东西,自己感觉还不错,有什么问题可以提一提哈 目标:纵横中文网-完本-免费小说 网址:http://book.zongheng.com/st ...

  10. python多线程爬虫 爬取多个网页_python多线程爬虫爬取顶点小说内容(BeautifulSoup+urllib)...

    思路 之前写过python爬取起点中文网小说,多线程则是先把爬取的章节链接存到一个列表里,然后写一个函数get_text每次调用这个函数就传一个章节链接,那么就需要调用n次该函数来获取n章的内容,所以 ...

最新文章

  1. 语句覆盖(Statement coverage)
  2. DVWA系列之1 环境搭建
  3. JS OOP -02 深入认识JS中的函数
  4. PP团队圣经巨著《Application Architecture Guide2.0》14章-数据访问层
  5. 花呗将全面接入央行征信系统,拒绝接入将无法使用 网友:还好我不买房
  6. HTML页面中返回顶部的几种实现方式
  7. 基于J2EE的门诊挂号收费系统设计与实现.rar(毕业论文+程序源码+数据库文件)
  8. iOS H264编码及解码
  9. picgo图片上传踩坑
  10. 2022-2028年中国全屋定制行业发展动态及投资前景分析报告
  11. html姓名签到,方案二-签到搜索界面-姓名.html
  12. 十八层地狱详解(看看你会进几层)....
  13. 如何看待 2022 年秋招算法岗人间地狱?
  14. PyTorch之—卷积层、激活层、BN
  15. Java Web中Forward和redirect的区别
  16. 中鸣循迹机器人_自动循迹机器人控制系统的设计
  17. 你会制作点赞吗?(含动图)
  18. android 10.0 展讯 MTK内置可卸载app
  19. MySQL OCP888题解030-代理用户技术
  20. MATLAB程序设计与应用刘卫国(第三版)课后实验答案——2

热门文章

  1. 【ZeyFra个人随记02】23考研,重新出发,决不投降,真正的为自己脚踏实地认真努力拼一次吧
  2. 【愚公系列】2022年02月 Django商城项目 29-商品浏览历史记录功能实现
  3. 矩阵特征值和特征向量matlab,MATLAB计算矩阵特征值和特征向量
  4. e生保等待期什么意思_平安e生保等待期是90天 保险90天等待期是什么
  5. 空间换时间的数据结构问题
  6. 拆机专用磁力桌垫:保证一颗螺丝也不漏网
  7. 45、backtrader的一些基本概念---佣金(commission)的设置
  8. mysql二叉树_mysql如何创建二叉树
  9. 2019年终总结-坚持的力量
  10. RK3399外设驱动之MIPI显示-panel配置