首先我们这里采取的方式是爬取微博手机网页版,所以我们这里将浏览器设置成手机模式。如下图:

真夜猫.JPG

点击浏览器右上角小编画圈的这里将浏览器设置成手机,然后再打开百度搜索微博,这样我们打开的都是手机移动端网页。

分析手机微博网页类型

微博这个网页的数据都是我们先上滑动,然后依次显示出来的,这种数据类型是异步加载,ajax。所以我们这里将network抓包选取一下xhr,点击小编画圈的地方就可以筛选出ajax类型数据了,如下图:

真夜猫.JPG

数据抓取操作

我们想抓取微博数据,就需要将网页慢慢的向上滑动,然后找出我们需要的url。看小编操作的结果,如下图:

真夜猫.JPG

大家看,是不是抓取到了我们想要的数据,微博上面显示的内容是和我们抓的包里面的内容是一样的。这里是一个json类型数据,我们直接解析json就行了(www.json.cn 这个网页可以帮助我们很好的分析json数据)。

url规则分析

我们先要获取微博其他地方的数据,其实很简单,看下图:

真夜猫.JPG

大家看这个网页,他是有规律的,大家看这个url的最后是page=2,我们只需控制这个参数,就可以获取微博其他地方的数据。

具体代码

小编给大家简单写了一下,具体代码如下:

import requests

import json

from fake_useragent import UserAgent

import re

ua = UserAgent(use_cache_server=False)

def spider(url):

response=requests.get(url=url,headers={'User-Agent':ua.random,})

response=json.loads(response.text)

infos=response['data']['cards']

for info in infos:

text=info['mblog']['text']

text="".join(re.findall(r'>(.*?)

if text!="":

print(text)

print('*'*35)

def main():

for i in range(2,50):

url='https://m.weibo.cn/api/container/getIndex?containerid=102803&openApp=0&page='+str(i)+''

spider(url)

if __name__ == '__main__':

main()

运行效果如下:

真夜猫.JPG

还等什么,大家赶快去试试吧!

微博热点爬取html,爬虫实战-Ajax类型数据之微博爬取相关推荐

  1. python爬虫今日头条_python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图

    python爬虫-分析Ajax请求对json文件爬取今日头条街拍美图 前言 本次抓取目标是今日头条的街拍美图,爬取完成之后,将每组图片下载到本地并保存到不同文件夹下.下面通过抓取今日头条街拍美图讲解一 ...

  2. Python爬虫实战使用scrapy与selenium来爬取数据

    系列文章目录 实战使用scrapy与selenium来爬取数据 文章目录 系列文章目录 前言 一.前期准备 二.思路与运行程序 1.思路 2.运行程序 三.代码 1.代码下载 2.部分代码 总结 前言 ...

  3. 正经网站爬虫实战,如何快速使用Selenium爬取租房信息

    租房信息爬虫实战 摘要 1.技术选型 1.1 Selenium 1.2 MySql 2 程序思路 3 程序实现(python selenium) 3.1 引入需要的包 3.2 初始化驱动和数据库连接 ...

  4. python爬取网易云音乐飙升榜音乐_Python爬虫实战,30行代码轻松爬取网易云音乐热歌榜...

    在开始讲解思路之前,我们首先了解下网络状态码,为什么要看这个呢?以后你会回来感谢我的,嘻嘻! 一般网络状态有以下几种: 200(成功) 服务器成功处理了请求.一般来说,这意味着服务器提供所请求的页面, ...

  5. 爬虫实战(1)————百度首页爬取

    百度首页爬取 提供我的爬取页面的思路,不一定是正确的但是我都是按照这个思路走的 第一步(页面分析) 可以看到页面非常简单 那么我们的需求就是 首先 构造url 然后观察我们想要爬取的对象 我们的需求是 ...

  6. Python爬虫实战,requests+parsel模块,爬取二手房房源信息数据

    前言 最近在尝试用Python爬虫二手房房源信息数据,在这里给需要的小伙伴们提供代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本 ...

  7. python爬虫实战经典案例,突破反爬!爬取短视频!

    今天在爬取某梨短视频时,发现前端代码跟之前都不一样了.加入了很多的反爬措施.在此特意记录一下! 先来看一下最终执行结果: 爬虫重要的不是写代码,而是分析!分析它的网页请求! 爬虫的基本过程一般如下: ...

  8. 爬虫实战1——校园官网内容爬取

    Python使用requests爬取网页 简介 一. 自动翻页的实现 1.观察: 2.代码实现: 二.时间的限定 1.遇到的困难: 2.解决过程: 三.阅读数的爬取 1.遇到的困难: 2.解决过程: ...

  9. Python爬虫实战(四) Python鬼灭漫画爬取+简单JS分析

    本次爬取仅供学习,无任何商业用途 猪油骨,拿来卤~今天,来分享一下python图片爬取+简单JS分析 爬取网址:漫画地址 (这个网站只更新到188话,实际上已经有200多话了) 目录 一.获取所有章节 ...

最新文章

  1. BCH虫洞项目有多安全以及WHC究竟能干什么?
  2. px4 uavcan linux,PX4开发指南-12.2.1.UAVCAN Bootloader
  3. Kubuntu中thunderbird最小化到任务栏
  4. android 设置资源,Android 资源
  5. 用 JA Transmenu 模块做多级弹出菜单
  6. Python--day21--包
  7. 【网络安全工程师面试合集】—Web安全攻防技术演化
  8. 用Python分析了我的微信好友,原来我身边都是这样的人……绝了
  9. OSPF综合实验(三)
  10. C语言程序设计 - 积分兑换
  11. 高德地图各种摄像头图标_高德地图Overlay的应用以及照相功能的实现
  12. linux-计算机基础
  13. RCD钳位电路--选管
  14. maven添加阿里镜像急速提升jar下载速度
  15. 【有限元分析】在ANSYS经典版中划分网格后,如何查看单元数和节点数
  16. C语言中创建自己函数库文件流程
  17. 震惊:这样投简历才有效,你竟然不知道?
  18. python cmd以管理员执行指令(网卡切断与打开)
  19. python和es6_JavaScript-ES6总结(更新中!!!)
  20. Arndale Octa开发板下载android源码

热门文章

  1. 五种方案解决幂等问题
  2. Python笔记(1-20)
  3. WindowsXP也能启动纯DOS
  4. Windows程序奔溃后,禁止弹出“停止工作”对话框
  5. 暴雪在洛杉矶建了自己的电竞馆,守望先锋锦标赛下个月就会在这里举行
  6. 语音备忘录怎么添加录音
  7. qtp 连接mysql_qtp 怎样连接mysql数据库操作_MySQL
  8. 英伟达发布ChatGPT专用GPU,性能提升10倍,还推出云服务,普通企业也能训练LLM...
  9. PMP备考13个心得分享
  10. 中国焦炭行业发展现状及趋势分析,提高市场集中度「图」