2.页面分析

发现一共有88万多个问题,再看一下页面的列表规律,我们按照每页最大显示50个问题,一共有17776页,数据非常大

1).页面列表的构建

整个的stackoverflow上关于Python的问题页面非常规整,我们可以很容易的构建列表,比如前1000页range(1,1000),range(1000,2000):

2.数据的存储

我们需要在items.py里面构建一个存储的数据结构类,把这个7个特征存起来

不要忘记了在Setting里面配置一下:

DOWNLOADER_MIDDLEWARES = {'stackoverflow.middlewares.RandomProxyMiddleware': 543,}

但是代理的ip非常不稳定,尤其是免费的。而且代理IP爬取的时间会比本机更慢,毕竟中间加了中转

第二种方法:重启猫继续用本机IP

一般重启家里的路由器有的时候会换本机的IP地址,因为本机的IP地址爬取的速度是最快,然后放慢爬取的速度,加一些delay.

我采用了第二种方法,爬了999页大概49950条数据,并且放慢了速度,大概需要20分钟左右

我们一共有近90万的数据需要爬取,如果按照这样的速度去爬取的话,大概需要7个小时才能完全爬取完毕。Scrapy提供了非常完善的异常处理和log分析,即使我们中间爬取出错了,我们依然可以获得已经爬取的数据.当然有条件的话可以放在服务器上去爬取,速度会更快.

python可以爬取wind数据库吗_如何利用Python来爬取近百万条数据?数据库会炸吧?...相关推荐

  1. python爬取新闻发送微信_如何利用 Python 爬虫实现给微信群发新闻早报?(详细)...

    image 1. 场景 经常有小伙伴在交流群问我,每天的早报新闻是怎么获取的? image 其实,早期使用的方案,是利用爬虫获取到一些新闻网站的标题,然后做了一些简单的数据清洗,最后利用 itchat ...

  2. python抓取朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)...

    原标题:如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下) 前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往 ...

  3. python爬取新闻发送微信_如何利用 Python 爬虫实现给微信群发新闻早报?

    1. 场景 经常有小伙伴在交流群问我,每天的早报新闻是怎么获取的? 其实,早期使用的方案,是利用爬虫获取到一些新闻网站的标题,然后做了一些简单的数据清洗,最后利用 itchat 发送到指定的社群中. ...

  4. python爬虫能爬取微信密码吗_如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例...

    今天我们继续focus on微信,不过这次给大家带来的是利用Python网络爬虫抓取微信好友总数量和微信好友男女性别的分布情况.代码实现蛮简单的,具体的教程如下. 相信大家都知道,直接通过网页抓取微信 ...

  5. python正则匹配找到所有的浮点数_如何利用Python抓取静态网站及其内部资源

    遇到的需求 前段时间需要快速做个静态展示页面,要求是响应式和较美观.由于时间较短,自己动手写的话也有点麻烦,所以就打算上网找现成的. 中途找到了几个页面发现不错,然后就开始思考怎么把页面给下载下来. ...

  6. python运算结果是fasls的代码_《利用Python进行数据分析》--整理学习

    第2章(代码示例) path='example.txt' open(path).readline()#只读取文件的第一行.用print函数输出. import json #内置第三方模块将JSON字符 ...

  7. python中词云图怎样变成特殊图案_如何利用python画出一个多变的词云图?(1)...

    问题描述: 如何利用python画出一个多变的词云图? 解决方法:import numpy as np import matplotlib import matplotlib.pyplot as pl ...

  8. python怎么画地球绕太阳转_如何利用Python动态模拟太阳系运转

    前言 提到太阳系,大家可能会想到哥白尼和他的日心说,或是捍卫.发展日心说的斗士布鲁诺,他们像一缕光一样照亮了那个时代的夜空,对历史感兴趣的小伙伴可以深入了解一下,这里就不多说了. 太阳以巨大的引力使周 ...

  9. python爬取国家男女比例_如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例?...

    这个实现起来很简单,微信专门给python提供了一个接口包itchat,我们可以通过这个接口获取微信好友信息,继而统计好友数量和男女比例,下面我大概介绍一下实现过程及主要代码,实验环境win7+pyt ...

最新文章

  1. DataGrid删除确认及Item颜色交替
  2. 心得体悟帖---14、没有自己精品项目永远是个弟弟
  3. Windows未能启动,原因可能是最近更改了硬件或软件,解决此问题的步骤
  4. 第二章 数据结构(二)
  5. 计算机软硬件基础体系标准,国内首个计算机软硬件基础体系标准发布
  6. Shiro笔记(三)授权
  7. 写在S3C2440A平台+winCE5.0+NAND +HIVE注册表的实现
  8. linux查看tcp连接状态_Linux使用lsof查看打开的文件和网络连接
  9. (转)向SDE库中写入栅格和矢量数据
  10. 史上最简单的 SpringCloud 教程
  11. paip.c++ 转换 java 解决方案
  12. fabpot php cs fixer,使用 PHP-CS-Fixer 自动规范化你的 PHP 代码
  13. 16进制发送 mqtt客户端调试工具_MQTT测试工具下载
  14. 轻轻松松背单词软件测试,扇贝单词历史版本
  15. win10计算机域填写,win10系统如何加入域 win10系统加入域的方法
  16. 依据CCS分类建树(简单方案)
  17. Origin画法——简单的分布图画法
  18. springboot系列课程笔记-第一章-Spring Boot入门
  19. 【调优方法】——warmup
  20. 一文了解linux 网络协议栈(链路层)

热门文章

  1. log4j2 概述、配置详情、日志八种输出级别讲解
  2. 学术应用使用node-http-proxy集成谷歌学术
  3. 现代诗与古典传统的关系
  4. ios运行html时黑屏,iOS-启动图黑屏解决方法
  5. OpenPCDet配置安装记录
  6. git push 使用中遇到的Permission to xxx denied to xxx问题终极解决方案
  7. Centos下openresty-1.19.9-1环境搭建
  8. 构建乘积数组 -- 牛客网(剑指offer)
  9. 【AI初识境】从头理解神经网络-内行与外行的分水岭
  10. 强烈推荐:一款中文AI问答、创作、绘画工具