如何用python爬取下载微博视频_程序员徒手用python教你爬取新浪微博,一天可抓取 1300 万条数据...
爬虫功能:此项目和QQ空间爬虫类似,主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注(详细见此)。
代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒(用来登录的账号可从淘宝购买,一块钱七个)。
项目爬的是新浪微博wap站,结构简单,速度应该会比较快,而且反扒没那么强,缺点是信息量会稍微缺少一些(可见爬虫福利:如何爬wap站)。
爬虫抓取微博的速度可以达到 1300万/天 以上,具体要视网络情况,我使用的是校园网(广工大学城校区),普通的家庭网络可能才一半的速度,甚至都不到。
环境、架构:
开发语言:Python2.7
开发环境:64位Windows8系统,4G内存,i7-3612QM处理器。
数据库:MongoDB 3.2.0
(Python编辑器:Pycharm 5.0.4;MongoDB管理工具:MongoBooster 1.1.1)主要使用 scrapy 爬虫框架。
下载中间件会从Cookie池和User-Agent池中随机抽取一个加入到spider中。
start_requests 中根据用户ID启动四个Request,同时对个人信息、微博、关注和粉丝进行爬取。
将新爬下来的关注和粉丝ID加入到待爬队列(先去重)。
使用说明:
启动前配置:MongoDB安装好 能启动即可,不需要配置。
Python需要安装好scrapy(64位的Python尽量使用64位的依赖模块)
另外用到的python模块还有:pymongo、json、base64、requests。
将你用来登录的微博账号和密码加入到 cookies.py 文件中,里面已经有两个账号作为格式参考了。
另外一些scrapy的设置(如间隔时间、日志级别、Request线程数等)可自行在setting里面调。
运行截图:
数据库说明:
SinaSpider主要爬取新浪微博的个人信息、微博数据、关注和粉丝。
数据库设置 Information、Tweets、Follows、Fans四张表,此处仅介绍前面两张表的字段。Information 表:
_id:采用 “用户ID” 作为唯一标识。
Birthday:出生日期。
City:所在城市。
Gender:性别。
Marriage:婚姻状况。
NickName:微博昵称。
Num_Fans:粉丝数量。
Num_Follows:关注数量。
Num_Tweets:已发微博数量。
Province:所在省份。
Signature:个性签名。
URL:微博的个人首页。
Tweets 表:
_id:采用 “用户ID-微博ID” 的形式作为一条微博的唯一标识。
Co_oridinates:发微博时的定位坐标(经纬度),调用地图API可直接查看具体方位,可识别到在哪一栋楼。
Comment:微博被评论的数量。
Content:微博的内容。
ID:用户ID。
Like:微博被点赞的数量。
PubTime:微博发表时间。
Tools:发微博的工具(手机类型或者平台)
Transfer:微博被转发的数量。
代码请移步GitHub:SinaSpider
如何用python爬取下载微博视频_程序员徒手用python教你爬取新浪微博,一天可抓取 1300 万条数据...相关推荐
- 怎样下载安装python编程软件视频_程序员如何利用Python下载视频?几串代码轻松搞定...
很多学生或者工作人员想要下载网络上的一些视频,但是苦于找不到合适的下载方法.无从下手. 首先,我这里用到的是Python代码.没想到又是Python吧.这次很简单,不需要复制和写代码. 首先,你先下载 ...
- 用python写一个程序控制其它软件_程序员:利用Python实现可控制肉鸡的反向Shell...
一.初识 1.1 用 Python 实现一个可以管理多个肉鸡的反向 Shell,为什么叫反向 Shell 呢?反向就是肉鸡作为 Client 主动连接到我们的 Server 端,以实现对多个远程主机的 ...
- python技术栈是什么意思_程序员之数据分析Python技术栈
引言: Python是一种非常流行的脚本语言,其还提供了一个科学技术栈,可以进行快捷方便的数据分析,本系列文章将聚焦在如何使用基于Python的技术栈来构建数据分析的工具集合.工欲善其事,必先利其器, ...
- python跑神经网络_程序员深夜用Python跑神经网络,只为用中二动作关掉台灯!
原标题:程序员深夜用Python跑神经网络,只为用中二动作关掉台灯! 关注 文章源于网络,如有侵权请联系删除. 对于上了床就再也不想下来的人来说,关灯成为睡觉前面临的最大挑战! 然而这一届网友永远不会 ...
- python技术栈全景图_程序员之数据分析Python技术栈
程序员之数据分析Python技术栈 Python是一种非常流行的脚本语言,其还提供了一个科学技术栈,可以进行快捷方便的数据分析,本系列文章将聚焦在如何使用基于Python的技术栈来构建数据分析的工具集 ...
- 程序员女朋友礼物python代码_@程序员,用 Python 给女朋友准备个儿童节礼物可好?...
原标题:@程序员,用 Python 给女朋友准备个儿童节礼物可好? 作者 | 猿媛牧场 现在谈个恋爱.结个婚是真的炸啊.你 2.14 要送礼物,我认了,必须送啊,没有理由不送啊:3.14 白色情人节, ...
- python什么工作好找女朋友_程序员,三分钟教你用 Python 帮你找一个女朋友
原标题:程序员,三分钟教你用 Python 帮你找一个女朋友 什么是单身税? 单身税的历史可以追溯到2015年韩国的新政, 低生育率逼得韩国产生了这一政策. 现在我国也要实行这一政策, 很多单身狗就接 ...
- python刷红包_程序员小伙使用Python刷短视频自动领红包,好嗨哟
最近有几款比较火的刷短视频就可以领红包的App,只要简单的上下翻页浏览视频App就会自动计时累计红包,小编也快乐地参与到其中,由于浏览时间过长眼睛常常感觉到疲惫,手指也有点酸痛,根据多年的程序员思维, ...
- python编程神器下载_Python编程神器 -程序员必备开发手册
支持中文.英语.日语.韩语.法语.德语.俄语.西班牙语.葡萄牙语.藏语.西语等109种语言翻译.实景AR翻译.拍照翻译.语音翻译.对话翻译.在线翻译.离线翻译更顺畅.[权威词典]完整收录学习型牛津词典 ...
- python编写抢座位软件_程序员硬核Python抢票教程”,帮你抢回家车票
盼望着,盼望着,春节的脚步近了,然而,每年到这个时候,最难的,莫过于一张回家的火车票. 据悉,今年春运期间,全国铁路发送旅客人次同比将增长8.0%,达到4.4亿人次,2020年铁路春运自1月10日开始 ...
最新文章
- (转)Thread的中断机制(interrupt)
- Linux文件的复制、删除和移动命令
- exchange 2010 日志规则应用之审计邮箱
- mysql备份工具 :mysqldump mydumper Xtrabackup 原理
- python duplicated函数_Python DataFrame使用drop_duplicates()函数去重(保留重复值,取重复值)...
- 教你几招识别和防御Web网页木马
- #{} 跟${}的区别
- Several ports (8005, 8080, 8009) required by Tomcat v7.0 Server at localhost are解决方法
- Trace文件过量生成问题解决
- vb怎样同时打开2个excel工作簿_【赠书】不打开工作簿也能批量合并不同文件夹下多个表格的数据...
- Perl 安装Inline 和 Inline Java模组(windows)
- centos7执行 wget命令: command not found的两种解决方法
- 谈谈中兴捧月大赛决赛以及总结
- State Street以26亿美元收购资产管理IT供应商Charles River
- Java基础学习笔记二十四 MySQL安装图解
- [FAQ15840]MT2503系列充电电流问题
- ADC信噪比计算公式
- python编程星期几_python如何获取星期几
- matlab出现错误使用 / 矩阵维度必须一致
- android 打卡统计日历表,GitHub - lw1243925457/clickApp: 一个日常事务打卡和统计的APP,用于日常任务记录、任务所需时间记录、任务花费时间统计显示...
热门文章
- Drools规则引擎-如果Fact对象参数为null如何处理
- python修改ppt的字体和颜色_ppt-页面大小和颜色更改
- echarts 3D 柱状图
- chmod 777 到底是啥 ???看完这个你就完全懂了!
- python智力问答测试_智力问答:经典的智力测试题
- OC中的分类与类扩展
- This application failed to start because it could not find or load the Qt platform plugin “xcb“.
- 【高级持续性威胁追踪】当黑客不讲武德,安全专家也容易被骗
- 个编得好的拼音输入法C51的
- Access to Image at 'file:///Users canvas本地图片跨域报错解决方案