最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据。

官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了...

果断撸起袖子自己动手!先简单说一下我的思路:

一、目标选择

在确定爬取对象时,在移动端展示的数据可以满足的情况下,优先选择移动端。难度要低很多。

二、分析目标网站

在开始构造爬虫前,需要先了解目标网站的结构和数据传输方式。

拿本次爬取对象举例:

在开发者模式下可以找到构造页面内容的包,Request URL是页面数据api接口,滚动加载几页后即可发现规律。

在此 page = 2控制了滚动的页码数,可通过构造页面链接爬取微博大V所有的微博数据。

Content-Type:application/json; charset=utf-8 标明了页面数据是通过json返回的,编码类型为utf-8。

然后分析json包,里面包含了很多数据集,找你需要的就好:

其中的id 为构造某一条微博评论链接的关键数据,如果想爬具体某条微博下的评论数据需要用id的值来构造评论页链接。正常可感知的数据:微博内容、评论数、点赞数、分享数、发布时间和来源都是可以直接获取的。

页面分析的差不多了,可以开始构造微博爬虫了。

三、模拟浏览器请求

正常爬取微博时需要先登录,这里可以使用post请求将账号和密码传入的方式实现。也可以直接在浏览器内登录后使用登录后的api链接构造请求头,然后使用get方式请求即可。

本次按照第二种方式实现。在模拟请求头时

python爬取微博内容_Python 爬虫如何机器登录新浪微博并抓取内容?相关推荐

  1. python爬去新浪微博_Python 爬虫如何机器登录新浪微博并抓取内容?

    啊喂,你们不要只收藏不点赞啊 = = 稍微更新一下,多说两句. 虽然爬取移动端比较简单,但是爬一点难的东西对身体好对吧. 总结一下这个模拟登陆涉及的东西: 1.用户名经过base64加密. 2.输入用 ...

  2. pythonurllib新浪微博_Python 爬虫如何机器登录新浪微博并抓取内容?

    啊喂,你们不要只收藏不点赞啊 = = 稍微更新一下,多说两句. 虽然爬取移动端比较简单,但是爬一点难的东西对身体好对吧. 总结一下这个模拟登陆涉及的东西: 1.用户名经过base64加密. 2.输入用 ...

  3. python爬取二级页面_爬虫代码改进(二)|多页抓取与二级页面

    本文是下面两篇文章的续篇 本系列包括如下内容抓取豆瓣top250一页多个字段 整合成列表 存储为json文件 定义成函数形式 多页抓取之构造url 多页抓取之翻页 抓取二级页面数据 通过生成器优化代码 ...

  4. python爬取新浪微博数据中心_Python爬虫框架Scrapy实战之批量抓取招聘信息

    网络爬虫抓取特定网站网页的html数据,但是一个网站有上千上万条数据,我们不可能知道网站网页的url地址,所以,要有个技巧去抓取网站的所有html页面.Scrapy是纯Python实现的爬虫框架,用户 ...

  5. python爬取微博文本_Python爬虫爬取新浪微博内容示例【基于代理IP】

    本文实例讲述了Python爬虫爬取新浪微博内容.分享给大家供大家参考,具体如下: 用Python编写爬虫,爬取微博大V的微博内容,本文以女神的微博为例(爬新浪m站:https://m.weibo.cn ...

  6. python爬取微博评论_python爬虫抓取新浪微博数据

    需求分析 微博主页 抓取的内容包括:微博发布的时间,正文(仅提取文字),转发数,评论数,点赞数 抓取的内容 数据是怎么加载的 新浪微博的数据是用ajax异步下拉加载的,在chrome的调试模式下可捕捉 ...

  7. python爬百度贴吧_Python爬虫实战之爬取百度贴吧帖子

    大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取 指定是否只抓取楼主发帖内 ...

  8. python爬贴吧回复_Python爬虫——抓取贴吧帖子

    对珊瑚老哥保证了自己会尽量补档动画MTV吧的资源,有空应该研究下爬虫了. 不要在意头图,我不会假借各位对某个动漫的爱好然后坑人的.无论是电磁炮吧主那种拿电磁铁糊弄人的奸商,还是逸站靠小林做幌子卖收费破 ...

  9. python抓取微博数据_Python爬虫实现半自动发微博

    Python实现半自动发微博[用COOKIES代替模拟登录:用WAP版微博代替网页版微博:每次还要改post数据的URL...半半自动的感觉] 微博的内容是从糗事百科抓取的最热段子以及某网站的每日晚安 ...

最新文章

  1. EF-Linq将查询结果转换为Liststring
  2. Java中float类型精度问题
  3. Multiple Spring Data modules found, entering strict repository configuration mode!
  4. ASP.NET MVC Bundles 用法和说明(打包javascript和css)
  5. 机器学习经典算法之线性回归sklearn实现
  6. Memcached 运行状态
  7. deeplab ssd识别
  8. ARM-Button-Driver-硬件图
  9. uva 1617——Laptop
  10. [js] 在DOM上同时绑定两个点击事件(一个用捕获,一个用冒泡),事件总共会执行几次,先执行哪个事件?
  11. java 无锁框架_高性能无锁并发框架 Disruptor,太强了!
  12. 常州儿童计算机培训,常州推荐儿童编程培训班哪几家靠谱
  13. syn flag flooding防御
  14. 已经有了Thread为什么还要Runnable
  15. phpnow升级mysql_PHPnow更新PHP版本后连接数据库错误(mysql_connect报错)
  16. centos7.4启动卡在7的界面
  17. Win10系统重装过程(一键装机)
  18. 2021-5月14日-今日收获
  19. 20172319 《程序设计与数据结构》第11周学习总结
  20. C语言基础:折半查找

热门文章

  1. 高空作业安全绳穿戴识别检测算法 YOLOv3
  2. JDK各个版本官方下载
  3. Java并发编程 - 共享模型之管程
  4. 如何有效实现软件的需求管理 - 8 (全文完)
  5. 如何在win10新建菜单添加新的文件类型
  6. css中a标签中去掉下划线注意事项
  7. MuleSoft知识总结-9.使用Mule基本组件(Sub Flow,Set Payload,Logger,Flow Reference)
  8. 人工智能行业,就业方向和研究领域的简单介绍
  9. wordpress与微信公众号对接
  10. redis设置连接密码