微博热点爬取html,爬虫实战-Ajax类型数据之微博爬取

首先我们这里采取的方式是爬取微博手机网页版，所以我们这里将浏览器设置成手机模式。如下图:

真夜猫.JPG

点击浏览器右上角小编画圈的这里将浏览器设置成手机，然后再打开百度搜索微博，这样我们打开的都是手机移动端网页。

分析手机微博网页类型

微博这个网页的数据都是我们先上滑动，然后依次显示出来的，这种数据类型是异步加载，ajax。所以我们这里将network抓包选取一下xhr，点击小编画圈的地方就可以筛选出ajax类型数据了，如下图：

真夜猫.JPG

数据抓取操作

我们想抓取微博数据，就需要将网页慢慢的向上滑动，然后找出我们需要的url。看小编操作的结果，如下图：

真夜猫.JPG

大家看，是不是抓取到了我们想要的数据，微博上面显示的内容是和我们抓的包里面的内容是一样的。这里是一个json类型数据，我们直接解析json就行了(www.json.cn 这个网页可以帮助我们很好的分析json数据)。

url规则分析

我们先要获取微博其他地方的数据，其实很简单，看下图：

真夜猫.JPG

大家看这个网页，他是有规律的，大家看这个url的最后是page=2,我们只需控制这个参数，就可以获取微博其他地方的数据。

具体代码

小编给大家简单写了一下，具体代码如下：

import requests

import json

from fake_useragent import UserAgent

import re

ua = UserAgent(use_cache_server=False)

def spider(url):

response=requests.get(url=url,headers={'User-Agent':ua.random,})

response=json.loads(response.text)

infos=response['data']['cards']

for info in infos:

text=info['mblog']['text']

text="".join(re.findall(r'>(.*?)

if text!="":

print(text)

print('*'*35)

def main():

for i in range(2,50):

url='https://m.weibo.cn/api/container/getIndex?containerid=102803&openApp=0&page='+str(i)+''

spider(url)

if __name__ == '__main__':

main()

运行效果如下：

真夜猫.JPG

还等什么，大家赶快去试试吧！

微博热点爬取html,爬虫实战-Ajax类型数据之微博爬取相关推荐

python爬虫今日头条_python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图
python爬虫-分析Ajax请求对json文件爬取今日头条街拍美图前言本次抓取目标是今日头条的街拍美图,爬取完成之后,将每组图片下载到本地并保存到不同文件夹下.下面通过抓取今日头条街拍美图讲解一 ...
Python爬虫实战使用scrapy与selenium来爬取数据
系列文章目录实战使用scrapy与selenium来爬取数据文章目录系列文章目录前言一.前期准备二.思路与运行程序 1.思路 2.运行程序三.代码 1.代码下载 2.部分代码总结前言 ...
正经网站爬虫实战，如何快速使用Selenium爬取租房信息
租房信息爬虫实战摘要 1.技术选型 1.1 Selenium 1.2 MySql 2 程序思路 3 程序实现(python selenium) 3.1 引入需要的包 3.2 初始化驱动和数据库连接 ...
python爬取网易云音乐飙升榜音乐_Python爬虫实战，30行代码轻松爬取网易云音乐热歌榜...
在开始讲解思路之前,我们首先了解下网络状态码,为什么要看这个呢?以后你会回来感谢我的,嘻嘻! 一般网络状态有以下几种: 200(成功) 服务器成功处理了请求.一般来说,这意味着服务器提供所请求的页面, ...
爬虫实战（1）————百度首页爬取
百度首页爬取提供我的爬取页面的思路,不一定是正确的但是我都是按照这个思路走的第一步(页面分析) 可以看到页面非常简单那么我们的需求就是首先构造url 然后观察我们想要爬取的对象我们的需求是 ...
Python爬虫实战，requests+parsel模块，爬取二手房房源信息数据
前言最近在尝试用Python爬虫二手房房源信息数据,在这里给需要的小伙伴们提供代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本 ...
python爬虫实战经典案例，突破反爬！爬取短视频！
今天在爬取某梨短视频时,发现前端代码跟之前都不一样了.加入了很多的反爬措施.在此特意记录一下! 先来看一下最终执行结果: 爬虫重要的不是写代码,而是分析!分析它的网页请求! 爬虫的基本过程一般如下: ...
爬虫实战1——校园官网内容爬取
Python使用requests爬取网页简介一. 自动翻页的实现 1.观察: 2.代码实现: 二.时间的限定 1.遇到的困难: 2.解决过程: 三.阅读数的爬取 1.遇到的困难: 2.解决过程: ...
Python爬虫实战(四) Python鬼灭漫画爬取+简单JS分析
本次爬取仅供学习,无任何商业用途猪油骨,拿来卤~今天,来分享一下python图片爬取+简单JS分析爬取网址:漫画地址 (这个网站只更新到188话,实际上已经有200多话了) 目录一.获取所有章节 ...

微博热点爬取html,爬虫实战-Ajax类型数据之微博爬取

微博热点爬取html,爬虫实战-Ajax类型数据之微博爬取相关推荐

最新文章

热门文章