使用Scrapy爬取租号玩网站lol待租账号信息(完整代码)
一、项目Githun地址
https://github.com/zhonghangAlex/LOLSpider
欢迎大家访问下载!
二、LoLSpider
本项目基于scrapy,对租号玩网站的英雄联盟相关出租账号信息进行爬取,并且存取入库,使用随机User-Agent和随机高匿IP(Based on scrapy, this project crawls the rental account information related to heroic alliance of rental number playing website, and accesses and stores it in the library, using random User-Agent and random high-anonymity IP.)
三、相关库、框架、功能
- scrapy(爬虫框架)
- scrapyd(服务端部署)
- fake_useragent(随机请求头)
- crawl_xici(西刺高匿代理)
- twisted(异步存储数据库)
- pymysql(mysql链接)
四、说明
- 项目入口文件是main.py,直接运行该文件则可以启动爬虫项目
- 请先pip安装scrapy,fake_useragent,pymysql保证程序可以正常运行
- 项目通过使用fake_useragent,制造了随机请求头
- 数据库文件存放在db_file中,请先将数据还原,并且如果要使用动态IP,需要找到crawl_xici.py文件,调用crawl_ips()方法,将最新的高匿IP写入到数据库中
- 动态IP请求功能默认关闭,如果希望开启,可以在settings.py文件中,将DOWNLOADER_MIDDLEWARES的注释部分LOLSpider.middlewares.RandomProxyMiddleware取消注释
五、爬取网站
网站主页:https://www.zuhaowan.com/zuhao-17
网站详情页:https://www.zuhaowan.com/zuhao/520342.html
六、数据库存储效果图
使用Scrapy爬取租号玩网站lol待租账号信息(完整代码)相关推荐
- python使用 Scrapy 爬取唯美女生网站的图片资源
python python使用 Scrapy 爬取唯美女生网站 的资源,图片很好,爬取也有一定的难度,最终使用Scrapy获取了该网站 1.5W多张美眉照片....如有侵权,联系,立删除. ==== ...
- 想要快速爬取整站图片?速进(附完整代码)
大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
- Scrapy 爬取80s电影网高评分电影详细信息(Scrapy)
看到一个帖子说用scrapy爬取不了 https://blog.csdn.net/qq_15065903/article/details/99778873 我就想试试看看: 用了一下链接提取器: mo ...
- Scrapy爬取和讯博客个人博客的信息并写人数据库
一.爬虫实现功能 1)爬取博客中一个用户的所有博文信息 2)将博文的文章名.文章URL.文章点击数.文章评论数等信息提取出来 3)将提取出来的文章名.文章URL.文章点击数.文章评论数等信息写入MyS ...
- Java+Jsoup: 爬取二次元妹子图片并下载到本地(完整代码)
简介 这是一个基于Jsoup的用来爬取网页上图片并下载到本地的Java项目. 完整项目见 https://github.com/AsajuHuishi/CrawlByJsoup exe文件见getIm ...
- 爬爬爬!使用scrapy爬取你懂得的网站自建数据库!
1.检查我们的scrapy版本.截至2020年11月29日,scrapy的版本为2.4.0,方法是在cmd命令行中 scrapy version 如果你也与我一样,使用这个版本,那么可以确定,你可以复 ...
- scrapy爬取需要登录的网站(知乎)
法一:使用selenium 在middlewares.py中 import time from scrapy import signals from selenium import webdriver ...
- python scrapy爬取智联招聘的公司和职位信息(一)
这个帖子先暂时放弃.本以为和拉钩一样全是静态页面,结果在写item的时候,发现网页有点意思,突然有个大胆的想法,想试试-先埋坑,后面在填坑 缘由: 最近在找工作发现智联和51上太多培训机构的虚假招聘信 ...
- 四十一、完成scrapy爬取官方网站新房的数据
@Author:Runsen 文章目录 前言 分析网页 新建项目 加请求头 搞定item 首页调试 详情页调试 保存json 前言 在前几天,接到一个大学生的作业的爬虫单子,要求采用scrapy爬取链 ...
最新文章
- 目标检测(Google object_detection) API 上训练自己的数据集
- 【C】——如何用线程进行参数的传递
- 锐捷RG-S2126G交换机密码恢复实战
- php引入类的位置,php如何在一个类中引入另外一个类
- Openjudge-NOI题库-和为给定数
- 从LiveVideoStackCon 2019北京看多媒体技术趋势
- matlab如何添加度,matlab里的模糊工具箱绘制隶属度函数曲线导入到word的方法
- KEIL5 编译器导致的程序异常
- phpcmsV9首页loop文章调用顶级栏目名称
- jquery button disabled_jQuery练习
- 别人认为可不可能一点都不重要
- scala学习笔记四----scala基础知识学习
- java定时每周执行一次_Spring 定时任务如何实现每周一某个时间执行?
- 如何理解和如何选择PDA数据采集器
- php array assoc,PHP array_udiff_assoc() 函数
- 关于虚拟机的十个基本小技巧
- Miktex 安装遇到过的问题
- redis放入对象的几种方式
- 最大似然估计,最大后验估计,贝叶斯估计联系与区别
- Mysql 与ES(Elastic Search)对比
热门文章
- 老手机升级鸿蒙是不是更流畅,华为称鸿蒙比安卓更能解决手机卡顿:无惧老化 36个月持续流畅...
- WebClient 从服务器下载/获取文件方式
- 后台数据库连接以及工具类编写 [木字楠博客]
- 说说CSS学习中的瓶颈【转】
- 一个成绩表 该关系模式的外键_微信推出青少年模式背后,该如何处理未成年人与互联网的关系?...
- C++文件读取的常用方法
- 怎么防止SQL注入?
- NGINX 403 forbidden 【windows端】
- 苹果iPad 2十大亮点与5大遗憾
- js toFixed(2)出现很多位小数