爬虫功能:此项目和QQ空间爬虫类似,主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注(详细见此)。

代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒(用来登录的账号可从淘宝购买,一块钱七个)。

项目爬的是新浪微博wap站,结构简单,速度应该会比较快,而且反扒没那么强,缺点是信息量会稍微缺少一些(可见爬虫福利:如何爬wap站)。

爬虫抓取微博的速度可以达到 1300万/天 以上,具体要视网络情况,我使用的是校园网(广工大学城校区),普通的家庭网络可能才一半的速度,甚至都不到。

环境、架构:

开发语言:Python2.7

开发环境:64位Windows8系统,4G内存,i7-3612QM处理器。

数据库:MongoDB 3.2.0

(Python编辑器:Pycharm 5.0.4;MongoDB管理工具:MongoBooster 1.1.1)主要使用 scrapy 爬虫框架。

下载中间件会从Cookie池和User-Agent池中随机抽取一个加入到spider中。

start_requests 中根据用户ID启动四个Request,同时对个人信息、微博、关注和粉丝进行爬取。

将新爬下来的关注和粉丝ID加入到待爬队列(先去重)。

使用说明:

启动前配置:MongoDB安装好 能启动即可,不需要配置。

Python需要安装好scrapy(64位的Python尽量使用64位的依赖模块)

另外用到的python模块还有:pymongo、json、base64、requests。

将你用来登录的微博账号和密码加入到 cookies.py 文件中,里面已经有两个账号作为格式参考了。

另外一些scrapy的设置(如间隔时间、日志级别、Request线程数等)可自行在setting里面调。

运行截图:

数据库说明:

SinaSpider主要爬取新浪微博的个人信息、微博数据、关注和粉丝。

数据库设置 Information、Tweets、Follows、Fans四张表,此处仅介绍前面两张表的字段。Information 表:

_id:采用 “用户ID” 作为唯一标识。

Birthday:出生日期。

City:所在城市。

Gender:性别。

Marriage:婚姻状况。

NickName:微博昵称。

Num_Fans:粉丝数量。

Num_Follows:关注数量。

Num_Tweets:已发微博数量。

Province:所在省份。

Signature:个性签名。

URL:微博的个人首页。

Tweets 表:

_id:采用 “用户ID-微博ID” 的形式作为一条微博的唯一标识。

Co_oridinates:发微博时的定位坐标(经纬度),调用地图API可直接查看具体方位,可识别到在哪一栋楼。

Comment:微博被评论的数量。

Content:微博的内容。

ID:用户ID。

Like:微博被点赞的数量。

PubTime:微博发表时间。

Tools:发微博的工具(手机类型或者平台)

Transfer:微博被转发的数量。

代码请移步GitHub:SinaSpider

如何用python爬取下载微博视频_程序员徒手用python教你爬取新浪微博,一天可抓取 1300 万条数据...相关推荐

  1. 怎样下载安装python编程软件视频_程序员如何利用Python下载视频?几串代码轻松搞定...

    很多学生或者工作人员想要下载网络上的一些视频,但是苦于找不到合适的下载方法.无从下手. 首先,我这里用到的是Python代码.没想到又是Python吧.这次很简单,不需要复制和写代码. 首先,你先下载 ...

  2. 用python写一个程序控制其它软件_程序员:利用Python实现可控制肉鸡的反向Shell...

    一.初识 1.1 用 Python 实现一个可以管理多个肉鸡的反向 Shell,为什么叫反向 Shell 呢?反向就是肉鸡作为 Client 主动连接到我们的 Server 端,以实现对多个远程主机的 ...

  3. python技术栈是什么意思_程序员之数据分析Python技术栈

    引言: Python是一种非常流行的脚本语言,其还提供了一个科学技术栈,可以进行快捷方便的数据分析,本系列文章将聚焦在如何使用基于Python的技术栈来构建数据分析的工具集合.工欲善其事,必先利其器, ...

  4. python跑神经网络_程序员深夜用Python跑神经网络,只为用中二动作关掉台灯!

    原标题:程序员深夜用Python跑神经网络,只为用中二动作关掉台灯! 关注 文章源于网络,如有侵权请联系删除. 对于上了床就再也不想下来的人来说,关灯成为睡觉前面临的最大挑战! 然而这一届网友永远不会 ...

  5. python技术栈全景图_程序员之数据分析Python技术栈

    程序员之数据分析Python技术栈 Python是一种非常流行的脚本语言,其还提供了一个科学技术栈,可以进行快捷方便的数据分析,本系列文章将聚焦在如何使用基于Python的技术栈来构建数据分析的工具集 ...

  6. 程序员女朋友礼物python代码_@程序员,用 Python 给女朋友准备个儿童节礼物可好?...

    原标题:@程序员,用 Python 给女朋友准备个儿童节礼物可好? 作者 | 猿媛牧场 现在谈个恋爱.结个婚是真的炸啊.你 2.14 要送礼物,我认了,必须送啊,没有理由不送啊:3.14 白色情人节, ...

  7. python什么工作好找女朋友_程序员,三分钟教你用 Python 帮你找一个女朋友

    原标题:程序员,三分钟教你用 Python 帮你找一个女朋友 什么是单身税? 单身税的历史可以追溯到2015年韩国的新政, 低生育率逼得韩国产生了这一政策. 现在我国也要实行这一政策, 很多单身狗就接 ...

  8. python刷红包_程序员小伙使用Python刷短视频自动领红包,好嗨哟

    最近有几款比较火的刷短视频就可以领红包的App,只要简单的上下翻页浏览视频App就会自动计时累计红包,小编也快乐地参与到其中,由于浏览时间过长眼睛常常感觉到疲惫,手指也有点酸痛,根据多年的程序员思维, ...

  9. python编程神器下载_Python编程神器 -程序员必备开发手册

    支持中文.英语.日语.韩语.法语.德语.俄语.西班牙语.葡萄牙语.藏语.西语等109种语言翻译.实景AR翻译.拍照翻译.语音翻译.对话翻译.在线翻译.离线翻译更顺畅.[权威词典]完整收录学习型牛津词典 ...

  10. python编写抢座位软件_程序员硬核Python抢票教程”,帮你抢回家车票

    盼望着,盼望着,春节的脚步近了,然而,每年到这个时候,最难的,莫过于一张回家的火车票. 据悉,今年春运期间,全国铁路发送旅客人次同比将增长8.0%,达到4.4亿人次,2020年铁路春运自1月10日开始 ...

最新文章

  1. (转)Thread的中断机制(interrupt)
  2. Linux文件的复制、删除和移动命令
  3. exchange 2010 日志规则应用之审计邮箱
  4. mysql备份工具 :mysqldump mydumper Xtrabackup 原理
  5. python duplicated函数_Python DataFrame使用drop_duplicates()函数去重(保留重复值,取重复值)...
  6. 教你几招识别和防御Web网页木马
  7. #{} 跟${}的区别
  8. Several ports (8005, 8080, 8009) required by Tomcat v7.0 Server at localhost are解决方法
  9. Trace文件过量生成问题解决
  10. vb怎样同时打开2个excel工作簿_【赠书】不打开工作簿也能批量合并不同文件夹下多个表格的数据...
  11. Perl 安装Inline 和 Inline Java模组(windows)
  12. centos7执行 wget命令: command not found的两种解决方法
  13. 谈谈中兴捧月大赛决赛以及总结
  14. State Street以26亿美元收购资产管理IT供应商Charles River
  15. Java基础学习笔记二十四 MySQL安装图解
  16. [FAQ15840]MT2503系列充电电流问题
  17. ADC信噪比计算公式
  18. python编程星期几_python如何获取星期几
  19. matlab出现错误使用 / 矩阵维度必须一致
  20. android 打卡统计日历表,GitHub - lw1243925457/clickApp: 一个日常事务打卡和统计的APP,用于日常任务记录、任务所需时间记录、任务花费时间统计显示...

热门文章

  1. Drools规则引擎-如果Fact对象参数为null如何处理
  2. python修改ppt的字体和颜色_ppt-页面大小和颜色更改
  3. echarts 3D 柱状图
  4. chmod 777 到底是啥 ???看完这个你就完全懂了!
  5. python智力问答测试_智力问答:经典的智力测试题
  6. OC中的分类与类扩展
  7. This application failed to start because it could not find or load the Qt platform plugin “xcb“.
  8. 【高级持续性威胁追踪】当黑客不讲武德,安全专家也容易被骗
  9. 个编得好的拼音输入法C51的
  10. Access to Image at 'file:///Users canvas本地图片跨域报错解决方案