代码请移步GitHub SinaTranspondSpider

爬虫的功能:

  • 将转发某条的微博的信息信息爬取下来,主要是转发者转发时的文字内容,转发人的uid, 转发
    后的点赞数,以及转发的时间。
  • 同时用到了IP代理,emmm,这里可能需要一笔钱,要是家里有矿就不谈了,家里没矿的买一两天的玩玩也就行了,IP代理见: 无忧代理     ps: 不是打广告,就他们家的比较便宜。
  • 网速允许的情况下,使用IP代理一天可以爬上千万的转发内容。

环境和架构:

开发语言:python 3.6
开发环境:ubantu 16.04系统,   4G内存
数据库: MongoDB 3.2.0
编辑器: pycharm2018

使用说明:

  • 先装一个MongoDB, 然后启动就好了。
  • linux环境下装scrapy可太简单了,直接pip install scrapy 就可以了,前提是python装好了,windows的小伙伴也不要着急装,先看看网上的windows装scrapy的教程,错了就卸了重装就好了,毕竟我也是这样过来的。
  • 要是用我的代码的话,要记得在setting.py里面把Mongodb的账号、密码改一下,还有IP代理的账号。

运行截图:

因为是之前写的,还没截图,下次补上

关于python-scrapy框架爬取微博转发的信息相关推荐

  1. Python Scrapy框架爬取微博数据

    -1.前言 最近导师接到了一个项目,要爬取社交网路的数据,其中有一部分是爬取微博,Twitter和Facebook.目前实现了微博部分.先写着. 整个工程是使用的python3.6+Scray框架+M ...

  2. python scrapy框架爬取知乎提问信息

    前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...

  3. [Python爬虫]使用Scrapy框架爬取微博

    Scrapy框架爬取微博 简介 包 Scrapy框架 main.py(启动文件) setting.py(配置文件) pq.py(项目文件) 话题小组模块 模板 图片模块 用户模块 视频模块(未找到视频 ...

  4. 利用Scrapy框架爬取前途无忧招聘信息

    利用Scrapy框架爬取前途无忧招聘信息 关于安装和命令使用可参考:https://docs.scrapy.org/en/1.7/intro/install.html 先创建项目和爬虫文件 分析网站 ...

  5. python+scrapy简单爬取淘宝商品信息

    python结合scrapy爬取淘宝商品信息 一.功能说明: 已实现功能: 通过scrapy接入selenium获取淘宝关键字搜索内容下的商品信息. 待扩展功能: 爬取商品中的全部其他商品信息. 二. ...

  6. 利用Python Scrapy框架爬取“房天下”网站房源数据

    文章目录 分析网页 获取新房.二手房.租房数据 新房数据 租房数据: 二手房数据 反反爬虫 将数据保存至MongoDB数据库 JSON格式 CSV格式 MongoDB数据库 分析网页 "房天 ...

  7. Python爬虫实战+Scrapy框架 爬取当当网图书信息

    1.环境准备 1.在python虚拟环境终端使用 pip install scrapy下载scrapy依赖库 2.使用scrapy startproject book创建scrapy心目工程 3.使用 ...

  8. python scrapy框架爬取豆瓣top250电影篇一Windows下建立Scrapy项目,pycharm编辑

    1.打开cmd,进入到项目准备所放在的文件夹,执行命令: scrapy startproject douban 然后就可以使用pycharm打开项目了 2.建立spider文件 cmd命令行进入到项目 ...

  9. 用scrapy框架爬取微博所有人的微博内容的

    import scrapy import json import re import datetime import time from w3lib.html import remove_tags i ...

最新文章

  1. 循环获取结构体中的健名与值的实现
  2. 工作流编程循序渐进(9:使用本地服务在宿主和工作流之间通信)
  3. IE8 能否再创辉煌?
  4. 信号量、互斥体和自旋锁
  5. linux java程序启动脚本
  6. 免师计算机与学前教育,2014届河南免师生源分布.doc
  7. R语言ggplot2绘图——柱状图
  8. 使用Apache Kudu和Impala实现存储分层
  9. 利用python解析手机通讯录
  10. python3生成exe文件_python3.7打包成exe就三步
  11. HTML5游子吟网页的完整代码,游子吟
  12. 弹出启动windows安全中心服务器,无法启动Windows安全中心服务怎样处理
  13. Linux下显示IP地理位置信息的小工具—nali(很强大)
  14. TTTTTTTTTTDDDDDDDD原来是这样。。。。。。。。。。的
  15. 服务器打开显示选择键盘布局,更改服务器上的TTY键盘布局?
  16. 计算机专业教学总结,计算机教研组教学工作总结
  17. 亚马逊IC-ID/ISED认证需要提供什么资料
  18. 《Cisco VPP SFC》2、NSH_SFC 安装
  19. 华为运营商级路由器配置示例 | IPv4静态路由
  20. 如何安装cnpm和检查cnpm是否已经安装成功

热门文章

  1. 06_NetBean主类使用库项目类中的方法
  2. 全面解析“5G+区块链”的技术发展和应用落地,到底哪些问题能被解决?
  3. 计算机是一种能够预先,第1章计算机基础知识 一级msoffice电子教案
  4. 迪文串口屏幕制作(连载一)=====准备工作
  5. JMeter脚本录制步骤
  6. 【TestDirector】常见问题分析
  7. oracle计算两日期相差多少秒,分钟,小时,天
  8. 调查研究论文的描述性统计结果该如何分析讨论?
  9. xx.exe 中的 0x014180bd 处有未经处理的异常: 0xC0000005: 读取位置 0xfeeefeee 时发生访问冲突(当指针访问异常时,应考虑是不是对象未创建)。
  10. 如何用百数低代码开发平台实现会议预约?