最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据。

官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了...

果断撸起袖子自己动手!先简单说一下我的思路:

一、目标选择

在确定爬取对象时,在移动端展示的数据可以满足的情况下,优先选择移动端。难度要低很多。

二、分析目标网站

在开始构造爬虫前,需要先了解目标网站的结构和数据传输方式。

拿本次爬取对象举例:

在开发者模式下可以找到构造页面内容的包,Request URL是页面数据api接口,滚动加载几页后即可发现规律。

在此 page = 2控制了滚动的页码数,可通过构造页面链接爬取微博大V所有的微博数据。

Content-Type:application/json; charset=utf-8 标明了页面数据是通过json返回的,编码类型为utf-8。

然后分析json包,里面包含了很多数据集,找你需要的就好:

其中的id 为构造某一条微博评论链接的关键数据,如果想爬具体某条微博下的评论数据需要用id的值来构造评论页链接。正常可感知的数据:微博内容、评论数、点赞数、分享数、发布时间和来源都是可以直接获取的。

页面分析的差不多了,可以开始构造微博爬虫了。

三、模拟浏览器请求

正常爬取微博时需要先登录,这里可以使用post请求将账号和密码传入的方式实现。也可以直接在浏览器内登录后使用登录后的api链接构造请求头,然后使用get方式请求即可。

本次按照第二种方式实现。在模拟请求头时,只需构造'User-Agent'和'Referer'这两组信息就行。

header=({'User-Agent': '在你的浏览器开发模式下获取此信息',

'Referer': '在你的浏览器开发模式下获取此信息',

})

这两组信息都可以在该页面的开发者模式下获取到:

(涉及到个人信息我涂掉了...)

构造完请求头,使用requests库进行模拟请求,请求成功网站服务器识别到模拟的浏览器请求会返回网站的json数据,然后通过python的json库来解析它。

到目前为止的代码为:

# _*_ coding:utf-8 _*_ #声明程序的编写字符

import requests #导入requests库

import json #导入json库

def get_data(url):

for a in range (0,560): #通过不断传入参数a来构造链接页码

url = '上面获取到的页面链接'+str(a)

header=({'User-Agent': '在你的浏览器开发模式下获取此信息',

'Referer': '在你的浏览器开发模式下获取此信息'})

data = requests.get(url,headers=header,timeout=10) #通过requests的get方法请求

data = json.loads(data.text) #解析json数据

四、数据清洗

json数据拿到后,需要对数据进行清洗,筛选出想要的字段信息。

再次分析json返回的数据,所有的微博内容都放在字典data下的['cards']中,按层级关系取出来就可以了。

每一页会返回10条微博内容,在每一页的['cards']中将其依次取出:

for i in range(0,10):

text = data['data']['cards'][i]['mblog']['text'].strip() #爬取每一页的所有微博内容

其他数据按照上面讲述的方式依次取就可以了,这里就不赘述了。

将爬取到的数据写入数据库:

如果想要爬取每一条微博下的所有评论内容,则需要先将评论链接构造出来,然后依次请求这些链接,后面的思路跟爬取微博内容类似。

本次爬取的数据分析结论首发在我的公众号:产品汪生存指南

刚刚起步,急需各种关爱~!o(* ̄▽ ̄*)ブ ~~

欢迎关注,一起学习一起成长。

python爬微博数据中心_怎样用python爬新浪微博大V所有数据?相关推荐

  1. 如何用python爬微博数据_怎样用python爬新浪微博大V所有数据?

    最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...

  2. 用python爬微博数据_怎样用python爬新浪微博大V所有数据?

    最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...

  3. 博约新媒体大数据中心_聚焦媒体深度融合与大数据 想成主流数据中心不可少...

    原标题:想成为主流?数据中心不可少! 资料图片 "深度融合与大数据"是加快推进媒体融合的有效手段和发展方向.日前,在由传媒杂志社和贵州日报报业集团主办的第十二届中国传媒年会上,来自 ...

  4. python怎么爬取新浪微博数据中心_如何用python爬取nba数据中心的数据

    #coding=utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import requests import time imp ...

  5. 数据中心“泡澡”散热,阿里云启用全球最大液冷数据中心支撑双11

    每年双11火热的不止是购物车,还有阿里巴巴的数据中心.今年双11,阿里工程师们大规模采用了一项黑科技--给数据中心的服务器"泡澡"散热,来给火热的数据中心降温. 11月3日,在阿里 ...

  6. 数据中心节能环保政策汇总分析:2022年新建大型数据中心PUE需达到1.4以下

    随着数据中心的建设在全国逐年开展起来,我国对数据中心的建设提出了节能环保的要求与规划,在<关于加强绿色数据中心建设的指导意见>中明确提出到2022年,我国数据中心平均能耗基本达到国际先进水 ...

  7. 【2018亚太数据中心峰会】李典林:节能增效,提升数据中心产出率

    在过去的2017年,亚太地区的数据中心市场增速接近15%,领先于全球其他主要地区,与整体经济增长水平保持同步.区域内多元化的经济体发展特征使各国数据中心市场形成了鲜明的差异,以香港.新加坡为代表的成熟 ...

  8. python抓取微博数据中心_空气质量数据网页爬虫加数据处理

    Python这门语言因其简单强大已经火了很久了,但我接触的比较晚,前几个月因为一篇博客开始初步了解这门语言,并且之后模仿某位北邮的前辈的微博写了一个新浪微博的爬虫 这里给出链接:python编写的新浪 ...

  9. python怎么爬取新浪微博数据中心_基于Python的新浪微博位置数据获取方法研究....

    [1] 新浪微博数据中心.2017微博用户发展报告[EB/OL].[2017-12-25]. http://data.weibo.com/report/reportDetail?id=404. [2] ...

最新文章

  1. LL-verilog-HDLBitSim/circuit10解答和过程详解
  2. 新年第二弹|卖萌屋私藏书单大公开
  3. Java DataInputStream readBoolean()方法(带示例)
  4. asp建站系统源码_ASP.NET制造业进销存管理系统源码
  5. oracle 强制索引_当唯一索引遇见分布式数据库
  6. kinnect face tracking大概流程
  7. Golang入门教程(九)复合数据类型使用案例二
  8. 微信云控开发SDK使用教程--手机回传朋友圈点赞数量通知服务端
  9. 重构Webpack系列之六 ---- 配置文件
  10. 孤岛惊魂4服务器稳定吗,《孤岛惊魂5》究竟好不好玩 让我来告诉你(缺点)
  11. 100条经典C语言笔试题目
  12. USB 3.0连接器引脚、接口定义及封装尺寸
  13. 怎么把多个音频合并成一个音频?
  14. Python3智联招聘网爬虫学习
  15. c++图像处理之对比度拉伸变换
  16. Mapping Spiking Neural Networks的论文汇总以及思考
  17. 20年时候收集的一些信息安全岗面试题
  18. Node.js 给前端带来了什么?
  19. 多级弹出菜单jQuery插件ZoneMenu
  20. 字体反爬虫处理猫眼(数字)

热门文章

  1. matlab提取网络层输出,matlab神经网络工具箱的net数据提取
  2. 北京积分落户2018年与2019年分析
  3. 蝙蝠软件显示未能连接到服务器,蝙蝠侠无法连接服务器如何解决
  4. 金蝶KIS旗舰版盘点机PDA,外购入库单扫码校验,入库扫码校验核对
  5. 记一次 Cause: java.sql.SQLException: The user specified as a definer (‘XXX‘@‘%‘) does not exist的解决办法
  6. 21考研双非上岸东南大学苏州联合研究生院的经验贴
  7. 5G核心网网络架构-什么是核心网?核心网的功能有哪些?
  8. 基于微信小程序+SSM+Vue+Node实现智慧旅游商城系统
  9. win10 win7 php,win10降win7的方法
  10. 帝国cms手机和pc站数据同步建站教程