今天在编写Scrapy爬虫的时候接触到了LinkExtractor,遂学习了一下这个链接提取器。

Link Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象。使用场景就是在一个网站中通过自定义规则提取到自己想要的那些网址。

Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求。默认的LinkExtractor(也就是LxmlLinkExtractor)拥有比较方便的过滤选项,使用LXML的强大的HTMLParser实现。

使用的时候先从scrapy.linkextractors模块中引入:

from scrapy.linkextractors import LinkExtractor

LxmlLinkExtractor的使用:

class scrapy.contrib.linkextractors.lxmlhtml.LxmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), deny_extensions=None, restrict_xpaths=(), tags=('a', 'area'), attrs=('href', ), canonicalize=True, unique=True, process_value=None)

相关参数的含义请参考文档:http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/link-extractors.html

主要参数:

allow: #满足括号中正则表达式的值会被提取,如果为空则全部匹配
allow_domains: #会被提取的链接的域名

与之相关的CrawlSpider以及Rule之后应该会一起整合写一个博客。

转载于:https://www.cnblogs.com/EdenChanIy/p/9398758.html

Scrapy爬虫中的链接提取器LinkExtractor相关推荐

  1. scrapy使用代理报错keyerror: proxy_爬虫Scrapy框架-Crawlspider链接提取器与规则解析器...

    Crawlspider 一:Crawlspider简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能.其中最显著 ...

  2. Scrapy是什么?Scrapy怎么用?Scrapy进阶使用[链接提取器、自动登录、图片(文件)下载器](基于scrapy2.0+编写) ๑乛◡乛๑ Scrapy框架使用方法

    文章目录 Scrapy框架 链接提取器(LinkExtractors) Rule与LinkExtractor 实战演示 自动登录 旧方法-携带cookie登录和模拟提交登录表单 新方法-自动登录 图片 ...

  3. Scrapy 2.6 Link Extractors 链接提取器使用指南

    Python3 的 Scrapy 爬虫框架 中数据爬取过程中链接提取器是从响应中提取链接的对象.从对象LxmlLinkExtractor.extract_links 返回匹配 Link对象的列表Res ...

  4. Scrapy-Link Extractors(链接提取器)

    Link Extractors 中文文档:https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/link-extractors.html Link Ex ...

  5. python frame框架抓取_Python抓取框架Scrapy爬虫入门:页面提取

    前言 Scrapy是一个非常好的抓取框架,它不仅提供了一些开箱可用的基础组建,还能够根据自己的需求,进行强大的自定义.本文主要给大家介绍了关于Python抓取框架Scrapy之页面提取的相关内容,分享 ...

  6. python用find爬虫提取img下的src属性_基于 Python 的 Scrapy 爬虫入门:页面提取

    目录 下面创建一个爬虫项目,以图虫网为例抓取图片. 一.内容分析 打开 图虫网,顶部菜单"发现" "标签"里面是对各种图片的分类,点击一个标签,比如" ...

  7. 正则表达式提取markdown中图片链接(提取图片链接作为文章首图)

    网上搜使用正则表达式提取md中的图片链接作为文章首图 没找到好用的 只好自己写了一个 最大缺点 要自己去除括号 只能获取最后一个的url 以后有空再搞 let url = markdown.repla ...

  8. jmeter 获取全部响应,jmeter中的正则表达式提取器-从响应中提取多个值.

    The text is a response from my Jmeter request. I have to get the ReportstepID where dataurl="TC ...

  9. Scrapy框架中的crawlspider爬虫

    1 crawlspider是什么 在spider中要寻找下一页的url地址或者内容的url地址,想想是否有简单的方法省略寻找url的过程? 思路: 从response中提取所有的满足规则的url地址 ...

最新文章

  1. java正则表达式的用法_Java 正则表达式的使用
  2. php mysql 简单聊天室_聊天室phpmysql(一)
  3. ButterKnife 8.4.0 @BindView 失败,nullpointerexception
  4. NEFU 560 半数集
  5. VMware vCenter Converter 关闭SSL加密,提高35-40%性能
  6. 二、bootstrap4基础(flex布局)
  7. python连接mysql用哪个模块_Python连接MySQL数据库之pymysql模块使用
  8. MVC - 建立模型/实体类,对应到数据库
  9. 微信小程序——商城篇
  10. 有感于《游戏脚本高级编程》的劣质翻译
  11. 新增汉字英文数字标点转区位码api
  12. 计算机专业会学计量经济学吗,计量经济学的论文
  13. 2022年全球市场巧克力行业发展前景分析及市场需求调研报告
  14. es6---Promise
  15. 实战:HPA(Pod 水平自动伸缩)-2021.11.23
  16. PHP云盘网盘系统源码+快速对接多家云存储+VIP付费下载功能
  17. 图灵机器人之Python实现
  18. splatter包安装总结
  19. ScienceDirect打不开?试试这个方法
  20. 骷髅机器人素描图片大全_人物肖像素描的自我修炼2

热门文章

  1. 利用Arcgis for javascript API绘制GeoJSON并同时弹出多个Popup
  2. 解决虚拟机 正在决定eht0 的ip信息失败 无链接-- 添加虚拟网卡
  3. 【语言处理与Python】2.5WordNet
  4. logstash windows
  5. CountDownLatch的理解和使用 多线程同步器
  6. GitHub入门:如何上传与下载工程?
  7. 分享 : 警惕MySQL运维陷阱:基于MyCat的伪分布式架构
  8. 用ntdsutil命令中的restore object 更新版本号
  9. JList的基本操作
  10. STM32学习之路-SysTick的应用(时间延迟)