1. 实验内容

使用Pycharm写代码,采用scrapy爬取红袖小说网前十页的作品信息。

2. 试验环境

操作系统:window10 家庭版64位操作系统

Python版本:python 3.7.3

3. 实验

3.1 观察网页结构,制定爬取逻辑

使用firefox浏览器打开红袖小说网,使用开发者工具(Fn+F12)观察网页结构,获取相应元素的xpath语句。

由于我们需要在每本小说的详情页中进行文本的提取,所以这里需要观察每一页的网址构成找出规律。

网址链接分为三部分:主页+gender+catID

在此处我选择前十页的作品进行信息的爬取。

随便挑选一本小说的详情页进行网页结构解析,此处为小说名称、作者、小说类别的元素所在位置。

小说名称、作者、小说类别

此为这本小说的总字数、收藏量、点击量和简介的元素所在位置。

说的总字数、收藏量、点击量和简介

这是小说封面图片的url

图片的url

观察完网页结构后,制定爬取逻辑:

1.爬取每一个列表项

2.提取每本小说的名称、类别、作者、总字数、点击量、收藏量、简介、图片url

3.提取前十页的url链接

3.2 主要代码

文件结构解读

文件结构

在此我选取有代表性的四个进行解读:

1. book.py:爬虫脚本的书写

爬虫的名称命名为book,以及可以爬取的两个网址区域。

爬虫的基本信息

获取前十页的链接。这里要注意网址链接分为三部分:主页+gender+catID,多翻几页即可找到规律。(此处有参考网络教程)

获取前十页链接

获取详情页的链接。

获取详情页的链接

在详情页中获取我们想要的信息。由于总字数、点击量、收藏量采取的是“数字+万字”的形式,所以需要分为两个部分进行合并。

详情页代码

url是小说封面图片url的爬取。

爬虫部分的最后截图

2. items.py:创建爬虫存储的字段

要什么写什么就可以了。

3. begin.py:调用、调试scrapy

我看网上大家都是这么写的,不过多解释。注意把爬虫的名称换为自己的。

4. pipelines.py:处理爬取的数据(json格式)

这个也不解释,参考了网络教程。

执行爬虫文件

由于自己在做的时候忘记截图了,找了网上一个教程搬运过来,原链接为 https://www.jianshu.com/p/07b4d9f48505

没了。

4. 试验结果

爬取运行过程

json格式的数据

python爬虫实训实验报告_用Pycharm进行scrapy爬虫的实验报告相关推荐

  1. python开发实训平台_一体化教学实训平台解决方案

    泰迪科技根据高校实践教学中的痛点,首次提出"鱼骨教学法"的概念.以企业真实需求为导向,学生学习技能紧紧围绕企业实际应用需求,将学生掌握的理论知识,通过企业案例的形式进行衔接,达到知 ...

  2. 【Python】实训6:基于wine和wine_quality数据集练习sklearn构建模型方法(预处理、聚类、分类、回归)

    题目来源: <Python数据分析与应用>第6章 使用 scikit-learn 构建模型 实训部分 [ 黄红梅.张良均主编 中国工信出版集团和人民邮电出版社] 本博客题目文字主要来自: ...

  3. 使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站

    使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站 本次测试案例参考厦门大学数据库实验室 链接: https://dblab.xmu.edu.cn/blog/3937/ 在PyCharm中新建 ...

  4. 【期末满分作业】C语言程序设计 实训1——奖学金评定系统的设计与实现(附带实验报告、源码以及解释)

    大家好,各位努力奋斗的大学生小伙伴们!今天,我将带你们领略一项令人惊叹的程序设计奇迹--<奖学金评定系统>!是不是感到激动呢?别急,让我为你们揭开这个能让你在C语言程序设计中拿满分的秘密武 ...

  5. 传感器实训心得体会_基于at89c52传感器实训报告总结

    基于at89c52传感器实训报告总结 为了适应公司新战略的发展,保障停车场安保新项目的正常.顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划基于at89c52传感器实训报告总结九江学院信息科 ...

  6. mysql期末实验实训装置厂家_消防广播电话系统实验实训装置

    一.设备参数及性能: 1.装置组成: 消防广播电话系统实验实训装置元器件全部采用实物,整个实训装置主要由录放单元.功放单元.广播切换模块.总线火警通讯盘.电话模块.多种消防电话.音箱.音源等组成.系统 ...

  7. mysql期末实验实训装置厂家_工业自动化综合实训装置

    3.变频器实训挂箱 配置西门子V20 0.37KW变频器,带有RS485通讯及BOP操作面板. 4.触摸屏实训组件:7英寸昆仑通态,256色,了解工业触摸屏的功能及使用方法.掌握与PLC之间的通信知识 ...

  8. 太原理工大学linux与python编程r实验报告_太原理工大学算法设计与分析实验报告...

    <太原理工大学算法设计与分析实验报告>由会员分享,可在线阅读,更多相关<太原理工大学算法设计与分析实验报告(12页珍藏版)>请在人人文库网上搜索. 1.本科实验报告课程名称: ...

  9. 嵌入式python智能实训总结_智能楼宇实训心得体会

    智能楼宇实训心得体会 篇一:楼宇智能化控制心得体会 学习楼宇智能化技术的心得体会 通过老师的讲解及从书本和网络上的学习,我对楼宇智 能化技术有了一定的了解.楼宇智能化技术即综合计算机. 信息通信等方面 ...

最新文章

  1. Java项目:学生考勤管理系统(java+SSM+Poi导出+Easyui+JFreeChart+maven+mysql)
  2. outlook express 邮件超过2G时的解决方法
  3. 全差分运算放大器ADA4940的分析
  4. Qt中的QFontDialog
  5. VS2010+OpenCV2.4.3配置(一次设置,永久生效)
  6. [LeetCode]题解(python):086-Partition List
  7. Cs代码写在html页面哪里,当用于在details.cshtml页面上查看时,我用什么代码来查看模型中的项目列表?...
  8. 一开电脑都是广告,请问怎么永久关闭?
  9. img src SVG使用CSS更改样式
  10. Python基础——import(导入模块)
  11. Date类的getYear(),getMonth过时,现在的获取方法
  12. python_文件统计问题:文件” seqs_fasta.txt”保存着具有fasta格式的100多个蛋白质氨基酸序列
  13. 怀旧--这些游戏你都玩过么?还记得么?
  14. Python练手小项目(名片管理系统<第二部分>)
  15. Storm - 事务管理
  16. 虚拟服务器存储扩容方法,虚拟化数据中心存储扩容方案
  17. 书单 | 无所不能的Python,从技术到办公,总有一款适合你!
  18. office中计算机剪贴画,Office 2010的剪贴画
  19. css3 立方体3d旋转效果
  20. 重邮2017年硕士研究生入学考试(《数据结构》802)自己做的部分答案

热门文章

  1. 调试助手与康耐视智能相机Insight以太网通讯
  2. 人脸识别门禁项目总结(STM32部分)
  3. python 裁剪图片
  4. [原创] 如何带好一个团队
  5. 穆迪分析专家贡献IFRS 9和CECL新书
  6. 旋转电机设计_尤哈·皮罗内 PDF完整版下载 网盘分享
  7. [scRNA-seq]单细胞转录因子分析——SCENIC算法简析
  8. Intel 酷睿 i3、i5、i7 CPU 处理器之间有什么区别
  9. 「UG/NX」NX2212手动安装方法教程
  10. 计算机组成原理 | 第八章《计算机的外围设备》、第九章《输入/输出系统》 学习笔记