一、项目Githun地址


https://github.com/zhonghangAlex/LOLSpider

欢迎大家访问下载!

二、LoLSpider


本项目基于scrapy,对租号玩网站的英雄联盟相关出租账号信息进行爬取,并且存取入库,使用随机User-Agent和随机高匿IP(Based on scrapy, this project crawls the rental account information related to heroic alliance of rental number playing website, and accesses and stores it in the library, using random User-Agent and random high-anonymity IP.)

三、相关库、框架、功能


  • scrapy(爬虫框架)
  • scrapyd(服务端部署)
  • fake_useragent(随机请求头)
  • crawl_xici(西刺高匿代理)
  • twisted(异步存储数据库)
  • pymysql(mysql链接)

四、说明


  • 项目入口文件是main.py,直接运行该文件则可以启动爬虫项目
  • 请先pip安装scrapy,fake_useragent,pymysql保证程序可以正常运行
  • 项目通过使用fake_useragent,制造了随机请求头
  • 数据库文件存放在db_file中,请先将数据还原,并且如果要使用动态IP,需要找到crawl_xici.py文件,调用crawl_ips()方法,将最新的高匿IP写入到数据库中
  • 动态IP请求功能默认关闭,如果希望开启,可以在settings.py文件中,将DOWNLOADER_MIDDLEWARES的注释部分LOLSpider.middlewares.RandomProxyMiddleware取消注释

五、爬取网站


网站主页:https://www.zuhaowan.com/zuhao-17

网站详情页:https://www.zuhaowan.com/zuhao/520342.html

六、数据库存储效果图


使用Scrapy爬取租号玩网站lol待租账号信息(完整代码)相关推荐

  1. python使用 Scrapy 爬取唯美女生网站的图片资源

    python  python使用 Scrapy 爬取唯美女生网站 的资源,图片很好,爬取也有一定的难度,最终使用Scrapy获取了该网站 1.5W多张美眉照片....如有侵权,联系,立删除. ==== ...

  2. 想要快速爬取整站图片?速进(附完整代码)

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  3. Scrapy 爬取80s电影网高评分电影详细信息(Scrapy)

    看到一个帖子说用scrapy爬取不了 https://blog.csdn.net/qq_15065903/article/details/99778873 我就想试试看看: 用了一下链接提取器: mo ...

  4. Scrapy爬取和讯博客个人博客的信息并写人数据库

    一.爬虫实现功能 1)爬取博客中一个用户的所有博文信息 2)将博文的文章名.文章URL.文章点击数.文章评论数等信息提取出来 3)将提取出来的文章名.文章URL.文章点击数.文章评论数等信息写入MyS ...

  5. Java+Jsoup: 爬取二次元妹子图片并下载到本地(完整代码)

    简介 这是一个基于Jsoup的用来爬取网页上图片并下载到本地的Java项目. 完整项目见 https://github.com/AsajuHuishi/CrawlByJsoup exe文件见getIm ...

  6. 爬爬爬!使用scrapy爬取你懂得的网站自建数据库!

    1.检查我们的scrapy版本.截至2020年11月29日,scrapy的版本为2.4.0,方法是在cmd命令行中 scrapy version 如果你也与我一样,使用这个版本,那么可以确定,你可以复 ...

  7. scrapy爬取需要登录的网站(知乎)

    法一:使用selenium 在middlewares.py中 import time from scrapy import signals from selenium import webdriver ...

  8. python scrapy爬取智联招聘的公司和职位信息(一)

    这个帖子先暂时放弃.本以为和拉钩一样全是静态页面,结果在写item的时候,发现网页有点意思,突然有个大胆的想法,想试试-先埋坑,后面在填坑 缘由: 最近在找工作发现智联和51上太多培训机构的虚假招聘信 ...

  9. 四十一、完成scrapy爬取官方网站新房的数据

    @Author:Runsen 文章目录 前言 分析网页 新建项目 加请求头 搞定item 首页调试 详情页调试 保存json 前言 在前几天,接到一个大学生的作业的爬虫单子,要求采用scrapy爬取链 ...

最新文章

  1. 目标检测(Google object_detection) API 上训练自己的数据集
  2. 【C】——如何用线程进行参数的传递
  3. 锐捷RG-S2126G交换机密码恢复实战
  4. php引入类的位置,php如何在一个类中引入另外一个类
  5. Openjudge-NOI题库-和为给定数
  6. 从LiveVideoStackCon 2019北京看多媒体技术趋势
  7. matlab如何添加度,matlab里的模糊工具箱绘制隶属度函数曲线导入到word的方法
  8. KEIL5 编译器导致的程序异常
  9. phpcmsV9首页loop文章调用顶级栏目名称
  10. jquery button disabled_jQuery练习
  11. 别人认为可不可能一点都不重要
  12. scala学习笔记四----scala基础知识学习
  13. java定时每周执行一次_Spring 定时任务如何实现每周一某个时间执行?
  14. 如何理解和如何选择PDA数据采集器
  15. php array assoc,PHP array_udiff_assoc() 函数
  16. 关于虚拟机的十个基本小技巧
  17. Miktex 安装遇到过的问题
  18. redis放入对象的几种方式
  19. 最大似然估计,最大后验估计,贝叶斯估计联系与区别
  20. Mysql 与ES(Elastic Search)对比

热门文章

  1. 老手机升级鸿蒙是不是更流畅,华为称鸿蒙比安卓更能解决手机卡顿:无惧老化 36个月持续流畅...
  2. WebClient 从服务器下载/获取文件方式
  3. 后台数据库连接以及工具类编写 [木字楠博客]
  4. 说说CSS学习中的瓶颈【转】
  5. 一个成绩表 该关系模式的外键_微信推出青少年模式背后,该如何处理未成年人与互联网的关系?...
  6. C++文件读取的常用方法
  7. 怎么防止SQL注入?
  8. NGINX 403 forbidden 【windows端】
  9. 苹果iPad 2十大亮点与5大遗憾
  10. js toFixed(2)出现很多位小数