关于python-scrapy框架爬取微博转发的信息
代码请移步GitHub SinaTranspondSpider
爬虫的功能:
- 将转发某条的微博的信息信息爬取下来,主要是转发者转发时的文字内容,转发人的uid, 转发
后的点赞数,以及转发的时间。 - 同时用到了IP代理,emmm,这里可能需要一笔钱,要是家里有矿就不谈了,家里没矿的买一两天的玩玩也就行了,IP代理见: 无忧代理 ps: 不是打广告,就他们家的比较便宜。
- 网速允许的情况下,使用IP代理一天可以爬上千万的转发内容。
环境和架构:
开发语言:python 3.6
开发环境:ubantu 16.04系统, 4G内存
数据库: MongoDB 3.2.0
编辑器: pycharm2018
使用说明:
- 先装一个MongoDB, 然后启动就好了。
- linux环境下装scrapy可太简单了,直接pip install scrapy 就可以了,前提是python装好了,windows的小伙伴也不要着急装,先看看网上的windows装scrapy的教程,错了就卸了重装就好了,毕竟我也是这样过来的。
- 要是用我的代码的话,要记得在setting.py里面把Mongodb的账号、密码改一下,还有IP代理的账号。
运行截图:
因为是之前写的,还没截图,下次补上
关于python-scrapy框架爬取微博转发的信息相关推荐
- Python Scrapy框架爬取微博数据
-1.前言 最近导师接到了一个项目,要爬取社交网路的数据,其中有一部分是爬取微博,Twitter和Facebook.目前实现了微博部分.先写着. 整个工程是使用的python3.6+Scray框架+M ...
- python scrapy框架爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
- [Python爬虫]使用Scrapy框架爬取微博
Scrapy框架爬取微博 简介 包 Scrapy框架 main.py(启动文件) setting.py(配置文件) pq.py(项目文件) 话题小组模块 模板 图片模块 用户模块 视频模块(未找到视频 ...
- 利用Scrapy框架爬取前途无忧招聘信息
利用Scrapy框架爬取前途无忧招聘信息 关于安装和命令使用可参考:https://docs.scrapy.org/en/1.7/intro/install.html 先创建项目和爬虫文件 分析网站 ...
- python+scrapy简单爬取淘宝商品信息
python结合scrapy爬取淘宝商品信息 一.功能说明: 已实现功能: 通过scrapy接入selenium获取淘宝关键字搜索内容下的商品信息. 待扩展功能: 爬取商品中的全部其他商品信息. 二. ...
- 利用Python Scrapy框架爬取“房天下”网站房源数据
文章目录 分析网页 获取新房.二手房.租房数据 新房数据 租房数据: 二手房数据 反反爬虫 将数据保存至MongoDB数据库 JSON格式 CSV格式 MongoDB数据库 分析网页 "房天 ...
- Python爬虫实战+Scrapy框架 爬取当当网图书信息
1.环境准备 1.在python虚拟环境终端使用 pip install scrapy下载scrapy依赖库 2.使用scrapy startproject book创建scrapy心目工程 3.使用 ...
- python scrapy框架爬取豆瓣top250电影篇一Windows下建立Scrapy项目,pycharm编辑
1.打开cmd,进入到项目准备所放在的文件夹,执行命令: scrapy startproject douban 然后就可以使用pycharm打开项目了 2.建立spider文件 cmd命令行进入到项目 ...
- 用scrapy框架爬取微博所有人的微博内容的
import scrapy import json import re import datetime import time from w3lib.html import remove_tags i ...
最新文章
- 循环获取结构体中的健名与值的实现
- 工作流编程循序渐进(9:使用本地服务在宿主和工作流之间通信)
- IE8 能否再创辉煌?
- 信号量、互斥体和自旋锁
- linux java程序启动脚本
- 免师计算机与学前教育,2014届河南免师生源分布.doc
- R语言ggplot2绘图——柱状图
- 使用Apache Kudu和Impala实现存储分层
- 利用python解析手机通讯录
- python3生成exe文件_python3.7打包成exe就三步
- HTML5游子吟网页的完整代码,游子吟
- 弹出启动windows安全中心服务器,无法启动Windows安全中心服务怎样处理
- Linux下显示IP地理位置信息的小工具—nali(很强大)
- TTTTTTTTTTDDDDDDDD原来是这样。。。。。。。。。。的
- 服务器打开显示选择键盘布局,更改服务器上的TTY键盘布局?
- 计算机专业教学总结,计算机教研组教学工作总结
- 亚马逊IC-ID/ISED认证需要提供什么资料
- 《Cisco VPP SFC》2、NSH_SFC 安装
- 华为运营商级路由器配置示例 | IPv4静态路由
- 如何安装cnpm和检查cnpm是否已经安装成功
热门文章
- 06_NetBean主类使用库项目类中的方法
- 全面解析“5G+区块链”的技术发展和应用落地,到底哪些问题能被解决?
- 计算机是一种能够预先,第1章计算机基础知识 一级msoffice电子教案
- 迪文串口屏幕制作(连载一)=====准备工作
- JMeter脚本录制步骤
- 【TestDirector】常见问题分析
- oracle计算两日期相差多少秒,分钟,小时,天
- 调查研究论文的描述性统计结果该如何分析讨论?
- xx.exe 中的 0x014180bd 处有未经处理的异常: 0xC0000005: 读取位置 0xfeeefeee 时发生访问冲突(当指针访问异常时,应考虑是不是对象未创建)。
- 如何用百数低代码开发平台实现会议预约?