scrapy 两类item_手把手教你进行Scrapy中item类的实例化操作
接下来我们将在爬虫主体文件中对Item的值进行填充。
1、首先在爬虫主体文件中将Item模块导入进来,如下图所示。
2、第一步的意思是说将items.py中的ArticleItem类导入到爬虫主体文件中去,将两个文件串联起来,其中items.py的部分内容如下图所示。
3、将这个ArticleItem类导入之后,接下来我们就可以对这个类进行初始化,并对其进行相应值的填充。首先去parse_detail函数下对其进行实例化,实例化的方法也十分简单,如下图所示。
4、接下来,我们将填充对应的值。实际上我们在之前通过Xpath或者CSS选择器已经获取到了目标数据,如下图所示,现在要做的就是依次填充目标字段的值。
5、我们可以像字典一样来给目标字段传值,例如item[“title”]= title,其他的目标字段的填充也是形如该格式,填充完成之后如下图所示。
其中,目标字段可以参考items.py中定义的item,这样可以加快填充的速度。
6、到这里,我们已经将需要填充的字段全部填充完成了,之后我们需要调用yield,这点十分重要。再调用yield之后,实例化后的item就会自动传递到pipeline当中去。可以看到下图中的pipelines.py中默认给出的代码,说明pipeline其实是可以接收item的。
7、到这里,关于实例化item的步骤就已经完成了,是不是比较简单呢?我们后面把pipeline配置起来,一步一步的将Scrapy串起来。
看完本文有收获?请转发分享给更多的人
IT共享之家
入群请在微信后台回复【入群】
想学习更多Python网络爬虫与数据挖掘知识,可前往专业网站:http://pdcfighting.com/
scrapy 两类item_手把手教你进行Scrapy中item类的实例化操作相关推荐
- 脸部匹配测试软件,手把手教你在浏览器中使用脸部识别软件包
原标题:手把手教你在浏览器中使用脸部识别软件包 雷锋网按:本文为雷锋字幕组编译的技术博客,原标题 face-api.js - Java API for Face Recognition in the ...
- 手把手教你在C++中配置Gurobi
手把手教你在C++中配置Gurobi C++中配置Gurobi:视频教程 C++中配置Gurobi 新建C++项目 配置C/C++外部包含目录 配置链接器的附加目录库和附加依赖项 案例测试 参考资料 ...
- python文本分类_手把手教你在Python中实现文本分类.pdf
手把手教你在Python 中实现文本分类(附代码.数 据集) 引言 文本分类是商业问题中常见的自然语言处理任务,目标是自动将文本文件分到一个 或多个已定义好的类别中.文本分类的一些例子如下: • 分析 ...
- 手把手教你在虚拟机中安装JDK和mysql
手把手教你在虚拟机中安装JDK和mysql 安装JDK和mysql Host is not allowed to connect to this MySQL server 卸载mysql服务 安装JD ...
- python正确的输入语句_手把手教你在python中如何使用while True语句
在学习过程中,经常能遇到采用while True的用法.下面以一个例子进行说明: 建立一个用户登录系统,用户输入用户名和密码,如果正确就可以进入系统. 1.我自己最开始的写法:d = {} #数据库字 ...
- 两个具有相同的名称在CLASSPATH中的类
http://d2100.com/questions/817 两个具有相同的名称在CLASSPATH中的类 如果我有两个名称相同的类说在我的类路径的两个不同的JAR将拾起JVM Matcher.jav ...
- 【小白目标检测】手把手教你做视频中的实时目标检测(基于Pelee算法)
手把手教你做视频中的实时目标检测(基于Pelee算法) 0. 先看效果: 1. 算法详解: 2. 下载源码: 3. 运行检测: 有需求的大佬欢迎加入我的接单群,需求详情请群里戳群主 获取源码或数据集: ...
- 手把手教你在VSCode中使用Git
我本身也多次看到他们用vscode查看修改prometheus代码 摘自:https://mp.weixin.qq.com/s/De7BFnT6cSL6ajvYoiNYkQ 手把手教你在VSCode中 ...
- 手把手教在VMware虚拟机中安装Windows11系统
如何使用虚拟机VMware安装Win11呢?这里小编为大家带来了详细的图文教程,手把手教在VMware虚拟机中安装Windows11系统,需要的朋友不要 错过了,收藏起来吧! 首先我们在电脑上下载并安 ...
最新文章
- 学JS的心路历程 -数组常见处理方法
- 分布式事物解决方案-TCC
- AndroidOrientation Sensor(方向传感器),新的替代方法详解(安卓官方提供)
- zbb20170606 oracle 查看空表
- eShopOnContainers 看微服务 ①:总体概览
- 阿里云rds升级mysql8_为更强大而生的开源关系型数据库来了!阿里云RDS for MySQL 8.0 正式上线!...
- DevOps“兵器”60样,你都会使哪几样?
- ng-bootstrap 组件集中 tabset 组件的实现分析
- 大学生经验丨帮助应届生、年轻程序员快速成长的 12 个锦囊妙计!
- centos 减少tty数量的方法
- 垃圾回收机制,垃圾回收的几种方法以及
- SDNUOJ 1520.采药(多重背包问题)
- 快速破解IntelliJ IDEA
- 杜绝网络黑手,谁来保障企业数据安全
- MATLAB制图代码
- 【云驻共创】华为云助力加速构建企业数据资产和数据治理生产线
- 安卓手机免root权限恢复微信聊天记录(以vivo手机为例)
- 怎么提高自己服务器的抗DDOS能力?
- Unity 之 实用技巧更换编辑器主题
- StoneDB 团队成员与 MySQL 之父 Monty 会面,共话未来数据库形态
热门文章
- android studio代码教程,史上最详细的Android Studio系列教程三
- python 抓包秒杀_Python 爬虫,推荐一款简单的抓包工具(续)
- 计算机的中mb b单位的关系,计算机中容量单位B、KB、MB、GB和TB的关系.doc
- Python数据分析与应用_从数据获取到可视化题库及答案
- Android 9,安卓开发项目实战
- 华为手机计算机怎么语音算术,只动口不动手!华为手机这个自带功能绝了,录音秒变文字!...
- 怎么学好python?
- KBQA知识总结(学习笔记)
- 战争艺术 java_战争艺术2网络对战版
- 整型int数据的取值范围是怎么来的?