Scrapy爬虫中的链接提取器LinkExtractor

今天在编写Scrapy爬虫的时候接触到了LinkExtractor，遂学习了一下这个链接提取器。

Link Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象｡使用场景就是在一个网站中通过自定义规则提取到自己想要的那些网址。

Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求｡默认的LinkExtractor（也就是LxmlLinkExtractor）拥有比较方便的过滤选项，使用LXML的强大的HTMLParser实现。

使用的时候先从scrapy.linkextractors模块中引入：

from scrapy.linkextractors import LinkExtractor

LxmlLinkExtractor的使用：

class scrapy.contrib.linkextractors.lxmlhtml.LxmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), deny_extensions=None, restrict_xpaths=(), tags=('a', 'area'), attrs=('href', ), canonicalize=True, unique=True, process_value=None)

相关参数的含义请参考文档：http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/link-extractors.html

主要参数：

allow: #满足括号中正则表达式的值会被提取，如果为空则全部匹配
allow_domains: #会被提取的链接的域名

与之相关的CrawlSpider以及Rule之后应该会一起整合写一个博客。

转载于:https://www.cnblogs.com/EdenChanIy/p/9398758.html

Scrapy爬虫中的链接提取器LinkExtractor相关推荐

scrapy使用代理报错keyerror: proxy_爬虫Scrapy框架-Crawlspider链接提取器与规则解析器...
Crawlspider 一:Crawlspider简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能.其中最显著 ...
Scrapy是什么?Scrapy怎么用?Scrapy进阶使用[链接提取器、自动登录、图片(文件)下载器](基于scrapy2.0+编写) ๑乛◡乛๑ Scrapy框架使用方法
文章目录 Scrapy框架链接提取器(LinkExtractors) Rule与LinkExtractor 实战演示自动登录旧方法-携带cookie登录和模拟提交登录表单新方法-自动登录图片 ...
Scrapy 2.6 Link Extractors 链接提取器使用指南
Python3 的 Scrapy 爬虫框架中数据爬取过程中链接提取器是从响应中提取链接的对象.从对象LxmlLinkExtractor.extract_links 返回匹配 Link对象的列表Res ...
Scrapy-Link Extractors（链接提取器）
Link Extractors 中文文档:https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/link-extractors.html Link Ex ...
python frame框架抓取_Python抓取框架Scrapy爬虫入门：页面提取
前言 Scrapy是一个非常好的抓取框架,它不仅提供了一些开箱可用的基础组建,还能够根据自己的需求,进行强大的自定义.本文主要给大家介绍了关于Python抓取框架Scrapy之页面提取的相关内容,分享 ...
python用find爬虫提取img下的src属性_基于 Python 的 Scrapy 爬虫入门：页面提取
目录下面创建一个爬虫项目,以图虫网为例抓取图片. 一.内容分析打开图虫网,顶部菜单"发现" "标签"里面是对各种图片的分类,点击一个标签,比如" ...
正则表达式提取markdown中图片链接(提取图片链接作为文章首图)
网上搜使用正则表达式提取md中的图片链接作为文章首图没找到好用的只好自己写了一个最大缺点要自己去除括号只能获取最后一个的url 以后有空再搞 let url = markdown.repla ...
jmeter 获取全部响应,jmeter中的正则表达式提取器-从响应中提取多个值.
The text is a response from my Jmeter request. I have to get the ReportstepID where dataurl="TC ...
Scrapy框架中的crawlspider爬虫
1 crawlspider是什么在spider中要寻找下一页的url地址或者内容的url地址,想想是否有简单的方法省略寻找url的过程? 思路: 从response中提取所有的满足规则的url地址 ...

Scrapy爬虫中的链接提取器LinkExtractor

Scrapy爬虫中的链接提取器LinkExtractor相关推荐

最新文章

热门文章