crawlspider

使用
scrapy genspider -t crawl 文件名字 网址

crawlspider是什么?
也是一个spider,是Spider的一个子类,所以其功能要比Spider要强大
多的一个功能是:提取链接的功能,根据一定的规则,提取指定的链接

链接提取器
LinkExtractor(
allow=xxx, # 正则表达式,要(*)
deny=xxx, # 正则表达式,不要这个
restrict_xpaths=xxx, # xpath路径(*)
restrict_css=xxx, # 选择器(*)
deny_domains=xxx, # 不允许的域名
)

通过正则提取链接
links = LinkExtractor(allow=r'/movie/\?page=\d')
将所有包含这个正则表达式的href全部获取到返回
links.extract_links(response)进行查看提取到的链接
【注】将重复的url去除掉
通过xpath提取
links = LinkExtractor(restrict_xpaths='//ul[@class="pagination pagination-sm"]/li/a')
通过css提取
links = LinkExtractor(restrict_css='.pagination > li > a')

转载于:https://www.cnblogs.com/airapple/p/9195467.html

crawl spider相关推荐

  1. scrapy框架之crawl spider

    crawl spider继承Spider类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(Rule)来提供跟进link的方便的机制,从爬取的 ...

  2. Python爬虫-Scrapy框架(四)- 内置爬虫文件 - 4.2 初探Crawl Spider

    Python爬虫-Scrapy框架(四)- 内置爬虫文件 - 4.2 初探Crawl Spider 写在前面 初探Crawl Spider 创建Crawl Spider项目 对比Basic与Crawl ...

  3. 爬虫利器Scrapy之Crawl Spider 模板的使用

    1.Spider模板 scrapy默认创建的spider模板就是basic模板,创建spider文件的命令是:scrapy genspider dribbble dribbble.com,查看spid ...

  4. scrapy框架 crawl spider 爬取.gif图片

    创建项目: scrapy startproject qiumeimei 建立爬虫应用: scrapy genspider -t crawl meimei www.qiumeimei.com 爬虫文件 ...

  5. 爬虫Spider 09 - scrapy框架 | 日志级别 | 保存为csv、json文件

    文章目录 Spider 08回顾 selenium+phantomjs/chrome/firefox execjs模块使用 Spider 09笔记 scrapy框架 小试牛刀 猫眼电影案例 知识点汇总 ...

  6. 爬虫的高阶使用——scrapy框架crawl shell,crawlSpider imagepipeline

    一.scrapy shell的使用 在命令行输入scrapy shell "网址名",以百度的域名为例子,需要了解即可,可以打印你想知道的信息 (python38) F:\Spid ...

  7. python process参数_将参数传递给Scrapy python中的process.crawl

    我想得到与此命令行相同的结果: scrapy crawl linkedin_anonymous -a first = James -a last = Bond -o output.json 我的脚本如 ...

  8. Python:CrawlSpiders

    通过下面的命令可以快速创建 CrawlSpider模板 的代码: scrapy genspider -t crawl tencent tencent.com 上一个案例中,我们通过正则表达式,制作了新 ...

  9. php 偷偷转移别人权重,判断百度蜘蛛偷偷进行301转移权重 给新站提权

    功能说明 1.判断蜘蛛跳转 2.支持多个域名随机跳转 3.判断百度搜索进去不进行跳转(防止被发现) 4.正常浏览器访问不跳转 5.过安全狗防护 使用方法 以下代码新建为:useragent.func. ...

  10. PHP 搜索引擎蜘蛛访问检测和统计

    2019独角兽企业重金招聘Python工程师标准>>> 建立一个数据库 create table crawler ( crawler_ID bigint(20) unsigned n ...

最新文章

  1. html实现pdf预览打印机,Pdf操作(HTML转PDF,PDF直接网页连接打印机)
  2. 【AI战略】2019年美国国家人工智能战略报告(中文翻译版)
  3. 《BI项目笔记》基于雪花模型的维度设计
  4. Lua日期与时间操作
  5. Linux Shell 从入门到删除根目录跑路指南
  6. android 界面绘制完毕,几种获取android 界面性能数据的快捷方法
  7. python3 线程池监控线程是否停止工作_Python线程池——个人总结,如果你不喜欢就不要喷,勿...
  8. java 基础编程题 5
  9. 对android上下文和窗口的理解
  10. Java JDBC c3p0
  11. 河北四部门联合打击虚开骗税违法行为
  12. 【系统架构】缓存Memcache 使用原子性操作add,实现并发锁
  13. Ubuntu20.04 图片标注工具labelImg
  14. OpenGL实现B样条曲线
  15. ESP8266WIFI模块了解一下(新手入门级别)
  16. 富文本编辑器ueditor——找不到ueditor.all.js以及ueditor.all.min.js文件
  17. 短视频引流拓客涨粉的逻辑
  18. RFID定位之隧道人员定位系统解决方案--新导智能
  19. 如何利用渠道码活码精准引流
  20. 实地地产借助联想企业网盘构建信息化,重塑地产行业新未来

热门文章

  1. java date只保留年月日_入门之JAVA爬虫
  2. silverlight html 传参,Silverlight与html、JavaScript三者交互
  3. Nginx源码阅读 --- nginx evnet事件接受请求时,函数执行过程
  4. Redis缓存组件开发规范
  5. [转载]Java多线程——创建线程池的几个核心构造参数
  6. centos 安装指定版本的node
  7. 面试题--------3、string stringbuffer stringbuilder的区别
  8. 【渝粤教育】国家开放大学2018年春季 0266-22T设计构成 参考试题
  9. 计算机视觉实战(二)图像基本操作
  10. [USACO19FEB]Cow Dating——找规律