使用scrapy框架爬取斗鱼图片

首先我们先认识一下框架

scrapy—Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

1、首先第一步先进行框架的安装操作

利用python的pip进行安装scrapy
这里如果直接pip3 install scrapy可能会出错。所以你可以先安装lxml:pip3 install lxml(已安装请忽略)。安装pyOpenSSL:在官网下载wheel文件。安装Twisted:在官网下载wheel文件。安装PyWin32:在官网下载wheel文件。下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/配置环境变量:将scrapy所在目录添加到系统环境变量即可。ctrl+f搜索即可。最后安装scrapy,pip3 install scrapy

2、安装成功后,再进行创建框架

利用该命令scrapy startproject douyuSpider ,创建项目成功后在进行,进入douyuSpider 目录,使用命令创建一个基础爬虫类:# douyuspider 为爬虫名,douyu.com为爬虫作用范围
scrapy genspider tencentPostion “douyu.com” 创建成功后在查看一下目录结构

3、json数据

之后在进行抓包 、、这是抓包的 API,可以直接使用http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=200&offset=1,这个是颜值的json数据,可以直接进行提取使用。

这就是json数据,

4、下面进行代码展示,

5 、这个是爬虫类

进行数据的提取
item: 这个是接收的字段,主要是主播的昵称和图片的链接 ,主播名称用为文件的名字,图片的链接用于下载

6、Pipeline:管道文件用于下载图片的文件和进行保存,文件名利用字符串的拼接把昵称保存为文件名

下载文件需要把管道类的参数尽心更改为ImagesPipeline

7、settings:这是框架的配置文件

首先进行写入文件的保存位置
然后进行模拟请求头,防止本机的ip进行拦截或者被封,这是最基本的防爬机制

然后开启管道 ,也可以配置其优先级,

,然后这样就结束了。。。。祝你天天愉快!~~~~

使用scrapy框架爬取斗鱼图片相关推荐

  1. scrapy框架爬取网站图片

    使用scrapy 框架爬取彼岸图库 前言: 这两天在网上学习了一下scrapy框架,发现及其好用,把爬虫步骤分的细细的.所以写了一个简单项目回顾一下并分享给大家^ . ^ 源码我已经放到Github了 ...

  2. Scrapy框架爬取昵图网图片

    Scrapy 图片爬虫构建思路为: 1. 分析网站 2. 选择爬取方式和策略 3. 创建爬虫项目-->定义items 4. 编写爬虫文件 5. 调试pipelines与settings 6. 调 ...

  3. 爬虫 scrapy框架 爬取360图片

    创建项目三步 scrapy startproject image360 cd image360 scrapy genspider image 首先还是先把服从机器人协议改成False settings ...

  4. scrapy框架爬取斗鱼女主播照片,依据颜值排行榜

    spider爬虫文件 douyugirl.py # -*- coding: utf-8 -*- import scrapy import json from douyu.items import Do ...

  5. python爬虫利用Scrapy框架爬取汽车之家奔驰图片--实战

    先看一下利用scrapy框架爬取汽车之家奔驰A级的效果图 1)进入cmd命令模式下,进入想要存取爬虫代码的文件,我这里是进入e盘下的python_spider文件夹内 C:\Users\15538&g ...

  6. 使用scrapy框架爬取汽车之家的图片(高清)

    使用scrapy框架爬取汽车之家的图片(高清) 不同于上一篇的地方是,这篇要爬取的是高清图片,而不仅仅是缩略图. 先来看一下要爬取的页面:https://car.autohome.com.cn/pic ...

  7. 利用python的scrapy框架爬取google搜索结果页面内容

    scrapy google search 实验目的 爬虫实习的项目1,利用python的scrapy框架爬取google搜索结果页面内容. https://github.com/1012598167/ ...

  8. scrapy框架爬取虎扑论坛球队新闻

    目录 Scrapy 框架 制作 Scrapy 爬虫 一共需要4步: Scrapy的安装介绍 Windows 安装方式 一. 新建项目(scrapy startproject) 二.明确目标(mySpi ...

  9. 利用Scrapy框架爬取LOL皮肤站高清壁纸

    利用Scrapy框架爬取LOL皮肤站高清壁纸  Lan   2020-03-06 21:22   81 人阅读  0 条评论 成品打包:点击进入 代码: 爬虫文件 # -*- coding: utf- ...

最新文章

  1. bzoj3192: [JLOI2013]删除物品(树状数组)
  2. 如何诊断crs 安装时 root.sh 脚本执行错误
  3. Shiro之从数据库初始化角色权限信息
  4. 正则表达式语法(转)
  5. 年仅26岁!这位双一流大学的特任教授,攻克世界数学难题
  6. 使用ceph-deploy搭建三节点ceph集群
  7. Sentinel服务熔断配置fallback和blockHandler_削峰填谷_流量控制_速率控制_服务熔断_服务降级---微服务升级_SpringCloud Alibaba工作笔记0052
  8. 麦克纳姆轮全向移动原理(运动速度方向分析)
  9. ORA-20011: Approximate NDV failed: ORA-29913: error in executing ODCIEXTTABLEOPEN callout
  10. 迪文屏幕T5UID3平台学习笔记零:迪文屏幕的学习和开发
  11. 使用管程法解决生产者消费者问题
  12. H - Unloaded Die
  13. c语言表示时间的程序,C语言显示“当前时间”小程序
  14. MACD抓妖神器 通达信指标公式 副图 源码 无加密 无未来
  15. 我的NVIDIA开发者之旅-Jetson Nano 2gb教你怎么训练模型(完整的模型训练套路)
  16. 力扣977有序数组的平方(c++版)
  17. DEJA_VU3D - Cesium功能集 之 090-台风过境实时动画
  18. 【CSS3 霓虹字体特效】
  19. matlab fft 频率轴,如何从fft函数求频率轴?
  20. 气传导蓝牙耳机品牌推荐,精选这四款好用的气传导耳机

热门文章

  1. 2018牛客暑假多校A题GPA 01分数规划
  2. SiI9136 -3 HDMI Transmitter 寄存器配置
  3. 鸿蒙系统 github,鸿蒙2.0系统github源码版
  4. The Summary of October
  5. octobercms mysql_手把手教你选择一款适合自己的CMS/博客程序
  6. 飞信消息通道服务器,和飞信_服务中心_中国移动通信
  7. vscode查找快捷键
  8. 搭建求生之路2服务器和插件分享
  9. 京东2018年校园招聘笔试代码环节答案分享
  10. 企业家论坛谋定转型 商协社团·万祥军:全国工商联促广东发展