用命令创建自动爬虫文件

创建爬虫文件是根据scrapy的母版来创建爬虫文件的

scrapy genspider -l 查看scrapy创建爬虫文件可用的母版

Available templates:母版说明
  basic     创建基础爬虫文件

  crawl     创建自动爬虫文件
  csvfeed   创建爬取csv数据爬虫文件

  xmlfeed    创建爬取xml数据爬虫文件

创建一个基础母版爬虫,其他同理

scrapy genspider -t 母版名称 爬虫文件名称 要爬取的域名 创建一个基础母版爬虫,其他同理
如:scrapy genspider -t crawl lagou www.lagou.com

第一步,配置items.py接收数据字段

default_output_processor = TakeFirst()默认利用ItemLoader类,加载items容器类填充数据,是列表类型,可以通过TakeFirst()方法,获取到列表里的内容

input_processor = MapCompose(预处理函数)设置数据字段的预处理函数,可以是多个函数

在学习过程中有什么不懂得可以加我的
python学习交流扣扣qun,784758214
群里有不错的学习视频教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容
# -*- coding: utf-8 -*-# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
#items.py,文件是专门用于,接收爬虫获取到的数据信息的,就相当于是容器文件import scrapy
from scrapy.loader.processors import MapCompose,TakeFirst
from scrapy.loader import ItemLoader                #导入ItemLoader类也就加载items容器类填充数据class LagouItemLoader(ItemLoader):                  #自定义Loader继承ItemLoader类,在爬虫页面调用这个类填充数据到Item类default_output_processor = TakeFirst()          #默认利用ItemLoader类,加载items容器类填充数据,是列表类型,可以通过TakeFirst()方法,获取到列表里的内容def tianjia(value):                                 #自定义数据预处理函数return '叫卖录音网'+value                        #将处理后的数据返给Itemclass LagouItem(scrapy.Item):                       #设置爬虫获取到的信息容器类title = scrapy.Field(                           #接收爬虫获取到的title信息input_processor = MapCompose(tianjia),      #将数据预处理函数名称传入MapCompose方法里处理,数据预处理函数的形式参数value会自动接收字段title)

第二步,编写自动爬虫与利用ItemLoader类加载items容器类填充数据

自动爬虫
Rule()设置爬虫规则
  参数:
  LinkExtractor()设置url规则
  callback='回调函数名称'
  follow=True 表示在抓取页面继续深入

LinkExtractor()对爬虫获取到的url做规则判断处理
  参数:
  allow= r'jobs/' 是一个正则表达式,表示符合这个url格式的,才提取
  deny= r'jobs/' 是一个正则表达式,表示符合这个url格式的,不提取抛弃掉,与allow相反
  allow_domains= www.lagou.com/ 表示这个域名下的连接才提取
  deny_domains= www.lagou.com/ 表示这个域名下的连接不提取抛弃
  restrict_xpaths= xpath表达式 表示可以用xpath表达式限定爬虫只提取一个页面指定区域的URL
  restrict_css= css选择器,表示可以用css选择器限定爬虫只提取一个页面指定区域的URL
  tags= 'a' 表示爬虫通过a标签去寻找url,默认已经设置,默认即可
  attrs= 'href' 表示获取到a标签的href属性,默认已经设置,默认即可


利用自定义Loader类继承ItemLoader类,加载items容器类填充数据

ItemLoader()实例化一个ItemLoader对象来加载items容器类,填充数据,如果是自定义Loader继承的ItemLoader同样的用法
  参数:
  第一个参数:要填充数据的items容器类注意加上括号,
  第二个参数:response

ItemLoader对象下的方法:
  add_xpath('字段名称','xpath表达式')方法,用xpath表达式获取数据填充到指定字段
  add_css('字段名称','css选择器')方法,用css选择器获取数据填充到指定字段
  add_value('字段名称',字符串内容)方法,将指定字符串数据填充到指定字段
  load_item()方法无参,将所有数据生成,load_item()方法被yield后数据被填充items容器指定类的各个字段

爬虫文件

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from adc.items import LagouItem,LagouItemLoader  #导入items容器类,和ItemLoader类class LagouSpider(CrawlSpider):                     #创建爬虫类name = 'lagou'                                  #爬虫名称allowed_domains = ['www.luyin.org']             #起始域名start_urls = ['http://www.luyin.org/']          #起始urlrules = (#配置抓取列表页规则Rule(LinkExtractor(allow=('ggwa/.*')), follow=True),#配置抓取内容页规则Rule(LinkExtractor(allow=('post/\d+.html.*')), callback='parse_job', follow=True),)def parse_job(self, response):                  #回调函数,注意:因为CrawlS模板的源码创建了parse回调函数,所以切记我们不能创建parse名称的函数#利用ItemLoader类,加载items容器类填充数据item_loader = LagouItemLoader(LagouItem(), response=response)item_loader.add_xpath('title','/html/head/title/text()')article_item = item_loader.load_item()yield article_item

如果你依然在编程的世界里迷茫,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的。交流经验。从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地

items.py文件与爬虫文件的原理图

Python快速开发分布式搜索引擎Scrapy精讲—craw scrapy item loader机相关推荐

  1. 第三百六十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作、增、删、改、查...

    第三百六十二节,Python分布式爬虫打造搜索引擎Scrapy精讲-elasticsearch(搜索引擎)基本的索引和文档CRUD操作.增.删.改.查 elasticsearch(搜索引擎)基本的索引 ...

  2. 第三百三十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—深度优先与广度优先原理...

    第三百三十八节,Python分布式爬虫打造搜索引擎Scrapy精讲-深度优先与广度优先原理 网站树形结构 深度优先 是从左到右深度进行爬取的,以深度为准则从左到右的执行(递归方式实现)Scrapy默认 ...

  3. 三十七 Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中...

    Python分布式爬虫打造搜索引擎Scrapy精讲-将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复 布隆过滤器(Bloom Filter)详解 基本概念 如 ...

  4. 第三百六十节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本概念...

    第三百六十节,Python分布式爬虫打造搜索引擎Scrapy精讲-elasticsearch(搜索引擎)的基本概念 elasticsearch的基本概念 1.集群:一个或者多个节点组织在一起 2.节点 ...

  5. 第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图...

    第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲-爬虫和反爬的对抗过程以及策略-scrapy架构源码分析图 1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scra ...

  6. 学习python-day02-25---转自Python分布式爬虫打造搜索引擎Scrapy精讲

    第三百六十九节,Python分布式爬虫打造搜索引擎Scrapy精讲-elasticsearch(搜索引擎)用Django实现搜索功能 Django实现搜索功能 1.在Django配置搜索结果页的路由映 ...

  7. 学习python-day02-24---转自Python分布式爬虫打造搜索引擎Scrapy精讲

    第三百六十八节,Python分布式爬虫打造搜索引擎Scrapy精讲-用Django实现搜索的自动补全功能 elasticsearch(搜索引擎)提供了自动补全接口 官方说明:https://www.e ...

  8. 分布式服务架构精讲pdf文档:原理+设计+实战,(收藏再看)

    前言 如果你期待对分布式系统有一个更全面的认识,想要了解各个技术在分布式系统中如何应用.分别解决哪些问题.有怎样优秀的实现,推荐阅读.收藏本篇. 分布式.微服务几乎是现在的技术人员必须要了解的架构方向 ...

  9. Python机器学习全流程项目实战精讲(2018版)

    Python机器学习全流程项目实战精讲(2018版) 网盘地址:https://pan.baidu.com/s/16SSVq74YC07M0dW1iDekPg 提取码: vu7r 备用地址(腾讯微云) ...

  10. 用python快速开发一个实用的socket服务器

    用python快速开发一个实用的socket服务器 - 吴尔平 - 博客园 用python快速开发一个实用的socket服务器 首先,要明白不是所有的socket服务都需要高性能.如果要求高性能,使用 ...

最新文章

  1. Template mode HTML5 has not been configured
  2. 使用tensorflow建模LSTM的详细步骤通俗易懂解读
  3. 4键电子手表说明书_电子手表怎么调(电子手表的四个键的功能各是什么)
  4. 第六天2017/04/11(1:结构体链表基础和相关经典操作)
  5. Qt eventFilter实现信号与槽
  6. angularJS+requireJS实现controller及directive的按需加载
  7. 周末舞会(信息学奥赛一本通-T1332)
  8. java作业 雏田的两个技能 类与对象
  9. 奈飞文化集:自由与责任_如何与自由客户合作:最好的合同就是您永远不必执行的合同...
  10. 你是否理解js的Object与Function与原型链
  11. mysql出现服务器异常后,重启服务器后无法开启数据库处理方法
  12. Linux keypad 设备树,beaglebone black通过devicetree配置矩阵键盘matrix-keypad
  13. 漫谈Java IO之 NIO那些事儿
  14. maven实现RBAC权限管理,实现不同角色下对应不同菜单
  15. 用gpg加密软件加密文件
  16. Javascript基础ppt
  17. StretchDIBits显示8位图问题
  18. HNUCM 道具的魅力值(贪心算法)
  19. 记录一道已知是n,(p-1)*(q-2)和(p-2)*(q-1)的RSA题目writeup
  20. 小白如何学3D建模?从零开始变大神

热门文章

  1. 震惊!你可能下了个假的抢红包神器
  2. Chemoffice 2018安装教程
  3. MyBatis学习(一)
  4. A Survey on Conversational Recommender Systems
  5. java键盘事件无反应_键盘事件,没反应
  6. Long-tail Relation Extraction via Knowledge Graph Embeddings and Graph Convolution Networks
  7. V2X车联网-学习整理笔记
  8. 2022-02-09 Android setLayoutParams动态修改RelativeLayout控件layout_width、layout_marginTop等。实际应用实例:控件随手指移动。
  9. 云计算技术 - 基础环境搭建
  10. 安装VMware ESXi