python爬虫实训实验报告_用Pycharm进行scrapy爬虫的实验报告
1. 实验内容
使用Pycharm写代码,采用scrapy爬取红袖小说网前十页的作品信息。
2. 试验环境
操作系统:window10 家庭版64位操作系统
Python版本:python 3.7.3
3. 实验
3.1 观察网页结构,制定爬取逻辑
使用firefox浏览器打开红袖小说网,使用开发者工具(Fn+F12)观察网页结构,获取相应元素的xpath语句。
由于我们需要在每本小说的详情页中进行文本的提取,所以这里需要观察每一页的网址构成找出规律。
网址链接分为三部分:主页+gender+catID
在此处我选择前十页的作品进行信息的爬取。
随便挑选一本小说的详情页进行网页结构解析,此处为小说名称、作者、小说类别的元素所在位置。
小说名称、作者、小说类别
此为这本小说的总字数、收藏量、点击量和简介的元素所在位置。
说的总字数、收藏量、点击量和简介
这是小说封面图片的url
图片的url
观察完网页结构后,制定爬取逻辑:
1.爬取每一个列表项
2.提取每本小说的名称、类别、作者、总字数、点击量、收藏量、简介、图片url
3.提取前十页的url链接
3.2 主要代码
文件结构解读
文件结构
在此我选取有代表性的四个进行解读:
1. book.py:爬虫脚本的书写
爬虫的名称命名为book,以及可以爬取的两个网址区域。
爬虫的基本信息
获取前十页的链接。这里要注意网址链接分为三部分:主页+gender+catID,多翻几页即可找到规律。(此处有参考网络教程)
获取前十页链接
获取详情页的链接。
获取详情页的链接
在详情页中获取我们想要的信息。由于总字数、点击量、收藏量采取的是“数字+万字”的形式,所以需要分为两个部分进行合并。
详情页代码
url是小说封面图片url的爬取。
爬虫部分的最后截图
2. items.py:创建爬虫存储的字段
要什么写什么就可以了。
3. begin.py:调用、调试scrapy
我看网上大家都是这么写的,不过多解释。注意把爬虫的名称换为自己的。
4. pipelines.py:处理爬取的数据(json格式)
这个也不解释,参考了网络教程。
执行爬虫文件
由于自己在做的时候忘记截图了,找了网上一个教程搬运过来,原链接为 https://www.jianshu.com/p/07b4d9f48505
没了。
4. 试验结果
爬取运行过程
json格式的数据
python爬虫实训实验报告_用Pycharm进行scrapy爬虫的实验报告相关推荐
- python开发实训平台_一体化教学实训平台解决方案
泰迪科技根据高校实践教学中的痛点,首次提出"鱼骨教学法"的概念.以企业真实需求为导向,学生学习技能紧紧围绕企业实际应用需求,将学生掌握的理论知识,通过企业案例的形式进行衔接,达到知 ...
- 【Python】实训6:基于wine和wine_quality数据集练习sklearn构建模型方法(预处理、聚类、分类、回归)
题目来源: <Python数据分析与应用>第6章 使用 scikit-learn 构建模型 实训部分 [ 黄红梅.张良均主编 中国工信出版集团和人民邮电出版社] 本博客题目文字主要来自: ...
- 使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站
使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站 本次测试案例参考厦门大学数据库实验室 链接: https://dblab.xmu.edu.cn/blog/3937/ 在PyCharm中新建 ...
- 【期末满分作业】C语言程序设计 实训1——奖学金评定系统的设计与实现(附带实验报告、源码以及解释)
大家好,各位努力奋斗的大学生小伙伴们!今天,我将带你们领略一项令人惊叹的程序设计奇迹--<奖学金评定系统>!是不是感到激动呢?别急,让我为你们揭开这个能让你在C语言程序设计中拿满分的秘密武 ...
- 传感器实训心得体会_基于at89c52传感器实训报告总结
基于at89c52传感器实训报告总结 为了适应公司新战略的发展,保障停车场安保新项目的正常.顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划基于at89c52传感器实训报告总结九江学院信息科 ...
- mysql期末实验实训装置厂家_消防广播电话系统实验实训装置
一.设备参数及性能: 1.装置组成: 消防广播电话系统实验实训装置元器件全部采用实物,整个实训装置主要由录放单元.功放单元.广播切换模块.总线火警通讯盘.电话模块.多种消防电话.音箱.音源等组成.系统 ...
- mysql期末实验实训装置厂家_工业自动化综合实训装置
3.变频器实训挂箱 配置西门子V20 0.37KW变频器,带有RS485通讯及BOP操作面板. 4.触摸屏实训组件:7英寸昆仑通态,256色,了解工业触摸屏的功能及使用方法.掌握与PLC之间的通信知识 ...
- 太原理工大学linux与python编程r实验报告_太原理工大学算法设计与分析实验报告...
<太原理工大学算法设计与分析实验报告>由会员分享,可在线阅读,更多相关<太原理工大学算法设计与分析实验报告(12页珍藏版)>请在人人文库网上搜索. 1.本科实验报告课程名称: ...
- 嵌入式python智能实训总结_智能楼宇实训心得体会
智能楼宇实训心得体会 篇一:楼宇智能化控制心得体会 学习楼宇智能化技术的心得体会 通过老师的讲解及从书本和网络上的学习,我对楼宇智 能化技术有了一定的了解.楼宇智能化技术即综合计算机. 信息通信等方面 ...
最新文章
- Java项目:学生考勤管理系统(java+SSM+Poi导出+Easyui+JFreeChart+maven+mysql)
- outlook express 邮件超过2G时的解决方法
- 全差分运算放大器ADA4940的分析
- Qt中的QFontDialog
- VS2010+OpenCV2.4.3配置(一次设置,永久生效)
- [LeetCode]题解(python):086-Partition List
- Cs代码写在html页面哪里,当用于在details.cshtml页面上查看时,我用什么代码来查看模型中的项目列表?...
- 一开电脑都是广告,请问怎么永久关闭?
- img src SVG使用CSS更改样式
- Python基础——import(导入模块)
- Date类的getYear(),getMonth过时,现在的获取方法
- python_文件统计问题:文件” seqs_fasta.txt”保存着具有fasta格式的100多个蛋白质氨基酸序列
- 怀旧--这些游戏你都玩过么?还记得么?
- Python练手小项目(名片管理系统<第二部分>)
- Storm - 事务管理
- 虚拟服务器存储扩容方法,虚拟化数据中心存储扩容方案
- 书单 | 无所不能的Python,从技术到办公,总有一款适合你!
- office中计算机剪贴画,Office 2010的剪贴画
- css3 立方体3d旋转效果
- 重邮2017年硕士研究生入学考试(《数据结构》802)自己做的部分答案
热门文章
- 调试助手与康耐视智能相机Insight以太网通讯
- 人脸识别门禁项目总结(STM32部分)
- python 裁剪图片
- [原创] 如何带好一个团队
- 穆迪分析专家贡献IFRS 9和CECL新书
- 旋转电机设计_尤哈·皮罗内 PDF完整版下载 网盘分享
- [scRNA-seq]单细胞转录因子分析——SCENIC算法简析
- Intel 酷睿 i3、i5、i7 CPU 处理器之间有什么区别
- 「UG/NX」NX2212手动安装方法教程
- 计算机组成原理 | 第八章《计算机的外围设备》、第九章《输入/输出系统》 学习笔记