关于Scrapy的使用,我已经写过很多篇博客了:

Python爬虫框架Scrapy的基本使用方法(以爬取加密货币GitHub链接为例)_蛐蛐蛐的博客-CSDN博客

使用Python爬虫框架Scrapy爬取Android Vulnerability Bulletin(安卓系统漏洞公告)基本方法_蛐蛐蛐的博客-CSDN博客

使用Python爬虫框架Scrapy爬取CVE Details中的CVSS_蛐蛐蛐的博客-CSDN博客

不过遇到新的需求的时候,还是想记录一下。不过因为只是简单记录,所以这篇博客很水。例如我想爬取这个网页中: NVD - CVE-2022-20220

这个漏洞的CWE的属性值,应该怎么匹配呢,还是看看源码:

<tr data-testid="vuln-CWEs-row-0"><td data-testid="vuln-CWEs-link-0"><a href="http://cwe.mitre.org/data/definitions/22.html" target="_blank">CWE-22</a>

所以匹配这个实际上也很简单,我直接给出Xpath的结果,一看便知:

for each in response.xpath('//tr/td/a[starts-with(@href,"http://cwe.mitre.org/data/definitions")]/text()'):

就简单总结这么多,应该说我对Scrapy这个爬虫的使用算是相当了解了。

怎样使用Scrapy爬取NVD网站上的数据相关推荐

  1. 四十一、完成scrapy爬取官方网站新房的数据

    @Author:Runsen 文章目录 前言 分析网页 新建项目 加请求头 搞定item 首页调试 详情页调试 保存json 前言 在前几天,接到一个大学生的作业的爬虫单子,要求采用scrapy爬取链 ...

  2. scrapy爬取某网站文章

    scrapy简单介绍 scrapy是一款优秀的python爬虫框架,使用scrapy可以很容易也很高效的爬取某些网站的大批量数据,由于scrapy框架底层对爬虫要做的工作做了很多集成和封装,因此对于开 ...

  3. 爬虫入门--爬取就业网站上的岗位信息构造数据集

    爬虫入门--爬取就业网站上的岗位信息.解析爬取的数据构造数据集 爬虫入门实践 爬虫的基本概念 爬虫的技术实现 爬虫入门实践 大家好!随着大数据分析逐渐火热的今天,爬虫技能也成了数据分析师一项不可或缺的 ...

  4. 基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据

    基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据 参考资料: 黑马程序员爬虫教程 静觅爬虫教程 mac下anaconda安装selenium+PhantomJS scrapy下载中间件结 ...

  5. Scrapy爬取1908电影网电影数据

    Scrapy爬取1908电影网电影数据 最初是打算直接从豆瓣上爬电影数据的,但编写完一直出现403错误,查了查是豆瓣反爬虫导致了,加了headers也还是一直出现错误,无奈只能转战1908电影网了. ...

  6. python—简单数据抓取七(采取蘑菇API代理设置scrapy的代理IP池并利用redis形成队列依次使用,利用ip池访问网页并将scrapy爬取转移到items的数据存入到数据库)

    学习目标: Python学习二十七-简单数据抓取七 学习内容: 1.采取蘑菇API代理设置scrapy的代理IP池并利用redis形成队列依次使用 2.利用ip池访问网页并将scrapy爬取转移到it ...

  7. 爬取某网站的潮汐数据

    爬取某网站的潮汐数据 import re,os import requests import datetime import random import timeheaders = {'User-Ag ...

  8. 用scrapy爬取菜谱网站的食谱与ajax异步加载标签的获取

    由于最近想做一个和菜谱应用,所以需要爬虫爬到大量的食谱数据,学习了一系列爬虫相关的知识,和大家分享一下 首先我们要爬取的网站的域名为"home.meishichina.com" 在 ...

  9. scrapy爬取某网站,模拟登陆过程中遇到的那些坑

    本节内容 在访问网站的时候,我们经常遇到有些页面必须用户登录才能访问.这个时候我们之前写的傻傻的爬虫就被ban在门外了.所以本节,我们给爬虫配置cookie,使得爬虫能保持用户已登录的状态,达到获得那 ...

最新文章

  1. 001_python单元测试
  2. ST-GCN 实现人体姿态行为分类
  3. Python 解一道江苏 小升初 数学题,如此变态,看不起来谁?
  4. FLUSH TABLES WITH READ LOCK
  5. MATLAB中cif用于清除什么,cifti-matlab-master 能够对MRI数据进行功能成像 - 下载 - 搜珍网...
  6. GDCM:gdcm::EncapsulatedDocument的测试程序
  7. cdt规约报文用程序解析_用Python运维网络(5):scapy
  8. 11个非常漂亮动物为主题的高品质图标集
  9. 计算机科学在航空航天仿真模拟,2017年南京航空航天大学计算机科学与技术学院922数据结构与操作系统[专业硕士]之数据结构考研仿真模拟题...
  10. 图论算法——Prim算法和Kruskal算法
  11. 某绒面试的病毒分析(一)
  12. 非递归二叉树的序列打印
  13. 性能测试-Loadrunner脚本录制步骤
  14. C#实现个人理财软件小项目
  15. 网页设计配色应用实例之黄色系
  16. linux cli运行脚本,AWS学习笔记(四)--CLI创建EC2时执行脚本
  17. springboot-vue前后端分离登录
  18. esc键退出全屏 vue_解决了VUE在浏览器全屏下监听不到Esc键盘事件
  19. 傲游浏览器5241android,傲游浏览器Android平板版 三大功能图解妙用
  20. 图像分析之直方图分析

热门文章

  1. 挥泪裁测试员?软件测试六边形战士技能,互联网裁员潮不存在的......
  2. 计算机cct证书含金量排名,省考CCT和国考NCRE的区别?
  3. android 代码规范检测工具,Android 代码规范之Inspection 定制
  4. 省选模拟赛Day7 T3 随便乱走
  5. 【cadence 16.6】PSPICE如何添加SPICE模型
  6. 单目多帧自监督深度估计(2021-2022)研究进展
  7. java怎么实现网络对战平台_手把手教你用Java实现一个简易联网坦克对战小游戏...
  8. zzuli OJ 1127: 矩阵乘积
  9. MAC电脑配置maven
  10. 正在检测目标单片机...