scrapy辅助功能实用函数:

  1. get_response: 获得scrapy.HtmlResponse对象, 在不新建scrapy项目工程的情况下,使用scrapy的一些函数做测试

  2. extract_links: 解析出所有符合条件的链接

代码示例

以拉勾首页为例,获取拉勾首页所有职位链接,进一步可以单独解析这些链接,获取职位的详情信息

import requests
from scrapy.http import HtmlResponse
from scrapy.linkextractors import LinkExtractordef get_response(url):"""获得scrapy.HtmlResponse对象, 在不新建scrapy项目工程的情况下,使用scrapy的一些函数做测试:param url: {str} 链接:return: {HtmlResponse} scrapy响应对象"""headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.3; rv:36.0) Gecko/20100101 Firefox/36.0"}response = requests.get(url, headers=headers)return HtmlResponse(url=url, body=response.content)def extract_links(response, allow, allow_domains):"""解析所有符合要求的链接, 每次都解析不出来text属性,所以直接封装,可以做一些特定扩展:param response: {scrapy.http.HtmlResponse} scrapy响应:param allow: {tuple} 链接限定元组:param allow_domains: {tuple} 域名限定元组:return: {iterator({str})}"""link_extractor = LinkExtractor(allow=allow, allow_domains=allow_domains)links = link_extractor.extract_links(response)return (link.url for link in links)if __name__ == '__main__':url = "https://www.lagou.com/"response = get_response(url)links = extract_links(response, ("jobs/\d+.html"), ("lagou.com",))for link in links:print(link)"""https://www.lagou.com/jobs/5185130.htmlhttps://www.lagou.com/jobs/4200613.htmlhttps://www.lagou.com/jobs/5039140.htmlhttps://www.lagou.com/jobs/5174337.htmlhttps://www.lagou.com/jobs/5185128.htmlhttps://www.lagou.com/jobs/5185127.html..."""

Python爬虫:scrapy辅助功能实用函数相关推荐

  1. Python爬虫 - scrapy - 爬取妹子图 Lv1

    0. 前言 这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...

  2. python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取

    python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取 前言 本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...

  3. Python爬虫-Scrapy框架(四)- 内置爬虫文件 - 4.2 初探Crawl Spider

    Python爬虫-Scrapy框架(四)- 内置爬虫文件 - 4.2 初探Crawl Spider 写在前面 初探Crawl Spider 创建Crawl Spider项目 对比Basic与Crawl ...

  4. Python爬虫——Scrapy 的基本使用

    文章目录 Python爬虫--Scrapy 的基本使用 1.创建 Scrapy 爬虫项目 2.Scrapy-创建爬虫文件 3.Scrapy-运行爬虫文件 Python爬虫--Scrapy 的基本使用 ...

  5. Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

    这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...

  6. Python爬虫—Scrapy框架—Win10下载安装

    Python爬虫-Scrapy框架-Win10下载安装 1. 下载wheel 2.下载twisted 3. 下载pywin32 4. 下载安装Scrapy 5. 创建一个scrapy项目 6. fir ...

  7. Python爬虫——Scrapy 简介和安装

    文章目录 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 2.Scrapy 下载安装 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 Scrapy 简介 S ...

  8. python爬虫 - scrapy的安装和使用

    http://blog.csdn.net/pipisorry/article/details/45190851 Crawler Framework爬虫框架scrapy简介 Scrapy是Python开 ...

  9. python爬虫scrapy框架教程_Python爬虫教程-30-Scrapy 爬虫框架介绍

    从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍 框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了 常见爬虫框 ...

最新文章

  1. python 变量聚类 proc varclus_使用SAS进行简单的聚类分析讲解
  2. 【java 性能优化实战】2 深入剖析:哪些资源,容易成为瓶颈
  3. Django模拟新浪微博的@功能
  4. php和html和javascript,php和javascript区别有哪些
  5. android XMl 解析神奇xstream 四: 将复杂的xml文件解析为对象
  6. 传输参数【JAX-WS入门系列】第06章_使用MTOM处理二进制文件
  7. Apple Mac OS X每日一技巧026:Spotlight打开文件所在的文件夹
  8. 修复./mysql/proc
  9. 60-008-022-使用-命令-yarn-session命令
  10. 【设计模式笔记】抽象工厂模式
  11. 面试官:谈谈 Tomcat 架构及启动过程,我一脸懵逼。。
  12. .net中前台javascript与c#后台代码调用
  13. GIS案例练习-----------第六天
  14. 中国能源消费结构(2003-2019年)
  15. AI算法 - 粒子滤波
  16. Android Shape 详细使用
  17. 吴晓波:预见2021(跨年演讲 —— 02 “云上中国”初露峥嵘)
  18. LibPcap经常丢包怎么办?
  19. 数据湖统一存储在 OPPO 的实践
  20. cad渐开线齿轮轮廓绘制_CAD渐开线齿轮怎么画?

热门文章

  1. 运放电路的知识点(一)
  2. 删除分页符时,保持页面格式不乱
  3. 2019年燕山大学大学生程序设计大赛(一)
  4. 手机视频网页点播服务器,手机视频点播系统搭建完整方案
  5. Axure 9 案例教程进阶篇之课程简介(带你玩转高交互设计)
  6. CSS基础-01-基础认知
  7. 黑莓愿意递交用户数据,协助各国警方执法
  8. OpenCV 4.x API 详解与C++实例-OpenCV基本数据类型
  9. 前端元素垂直水平居中的多个方法
  10. 2.STM32F429 学习emWin emWin文件和应用构架