微博热点爬取html,爬虫实战-Ajax类型数据之微博爬取
首先我们这里采取的方式是爬取微博手机网页版,所以我们这里将浏览器设置成手机模式。如下图:
真夜猫.JPG
点击浏览器右上角小编画圈的这里将浏览器设置成手机,然后再打开百度搜索微博,这样我们打开的都是手机移动端网页。
分析手机微博网页类型
微博这个网页的数据都是我们先上滑动,然后依次显示出来的,这种数据类型是异步加载,ajax。所以我们这里将network抓包选取一下xhr,点击小编画圈的地方就可以筛选出ajax类型数据了,如下图:
真夜猫.JPG
数据抓取操作
我们想抓取微博数据,就需要将网页慢慢的向上滑动,然后找出我们需要的url。看小编操作的结果,如下图:
真夜猫.JPG
大家看,是不是抓取到了我们想要的数据,微博上面显示的内容是和我们抓的包里面的内容是一样的。这里是一个json类型数据,我们直接解析json就行了(www.json.cn 这个网页可以帮助我们很好的分析json数据)。
url规则分析
我们先要获取微博其他地方的数据,其实很简单,看下图:
真夜猫.JPG
大家看这个网页,他是有规律的,大家看这个url的最后是page=2,我们只需控制这个参数,就可以获取微博其他地方的数据。
具体代码
小编给大家简单写了一下,具体代码如下:
import requests
import json
from fake_useragent import UserAgent
import re
ua = UserAgent(use_cache_server=False)
def spider(url):
response=requests.get(url=url,headers={'User-Agent':ua.random,})
response=json.loads(response.text)
infos=response['data']['cards']
for info in infos:
text=info['mblog']['text']
text="".join(re.findall(r'>(.*?)
if text!="":
print(text)
print('*'*35)
def main():
for i in range(2,50):
url='https://m.weibo.cn/api/container/getIndex?containerid=102803&openApp=0&page='+str(i)+''
spider(url)
if __name__ == '__main__':
main()
运行效果如下:
真夜猫.JPG
还等什么,大家赶快去试试吧!
微博热点爬取html,爬虫实战-Ajax类型数据之微博爬取相关推荐
- python爬虫今日头条_python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图
python爬虫-分析Ajax请求对json文件爬取今日头条街拍美图 前言 本次抓取目标是今日头条的街拍美图,爬取完成之后,将每组图片下载到本地并保存到不同文件夹下.下面通过抓取今日头条街拍美图讲解一 ...
- Python爬虫实战使用scrapy与selenium来爬取数据
系列文章目录 实战使用scrapy与selenium来爬取数据 文章目录 系列文章目录 前言 一.前期准备 二.思路与运行程序 1.思路 2.运行程序 三.代码 1.代码下载 2.部分代码 总结 前言 ...
- 正经网站爬虫实战,如何快速使用Selenium爬取租房信息
租房信息爬虫实战 摘要 1.技术选型 1.1 Selenium 1.2 MySql 2 程序思路 3 程序实现(python selenium) 3.1 引入需要的包 3.2 初始化驱动和数据库连接 ...
- python爬取网易云音乐飙升榜音乐_Python爬虫实战,30行代码轻松爬取网易云音乐热歌榜...
在开始讲解思路之前,我们首先了解下网络状态码,为什么要看这个呢?以后你会回来感谢我的,嘻嘻! 一般网络状态有以下几种: 200(成功) 服务器成功处理了请求.一般来说,这意味着服务器提供所请求的页面, ...
- 爬虫实战(1)————百度首页爬取
百度首页爬取 提供我的爬取页面的思路,不一定是正确的但是我都是按照这个思路走的 第一步(页面分析) 可以看到页面非常简单 那么我们的需求就是 首先 构造url 然后观察我们想要爬取的对象 我们的需求是 ...
- Python爬虫实战,requests+parsel模块,爬取二手房房源信息数据
前言 最近在尝试用Python爬虫二手房房源信息数据,在这里给需要的小伙伴们提供代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本 ...
- python爬虫实战经典案例,突破反爬!爬取短视频!
今天在爬取某梨短视频时,发现前端代码跟之前都不一样了.加入了很多的反爬措施.在此特意记录一下! 先来看一下最终执行结果: 爬虫重要的不是写代码,而是分析!分析它的网页请求! 爬虫的基本过程一般如下: ...
- 爬虫实战1——校园官网内容爬取
Python使用requests爬取网页 简介 一. 自动翻页的实现 1.观察: 2.代码实现: 二.时间的限定 1.遇到的困难: 2.解决过程: 三.阅读数的爬取 1.遇到的困难: 2.解决过程: ...
- Python爬虫实战(四) Python鬼灭漫画爬取+简单JS分析
本次爬取仅供学习,无任何商业用途 猪油骨,拿来卤~今天,来分享一下python图片爬取+简单JS分析 爬取网址:漫画地址 (这个网站只更新到188话,实际上已经有200多话了) 目录 一.获取所有章节 ...
最新文章
- BCH虫洞项目有多安全以及WHC究竟能干什么?
- px4 uavcan linux,PX4开发指南-12.2.1.UAVCAN Bootloader
- Kubuntu中thunderbird最小化到任务栏
- android 设置资源,Android 资源
- 用 JA Transmenu 模块做多级弹出菜单
- Python--day21--包
- 【网络安全工程师面试合集】—Web安全攻防技术演化
- 用Python分析了我的微信好友,原来我身边都是这样的人……绝了
- OSPF综合实验(三)
- C语言程序设计 - 积分兑换
- 高德地图各种摄像头图标_高德地图Overlay的应用以及照相功能的实现
- linux-计算机基础
- RCD钳位电路--选管
- maven添加阿里镜像急速提升jar下载速度
- 【有限元分析】在ANSYS经典版中划分网格后,如何查看单元数和节点数
- C语言中创建自己函数库文件流程
- 震惊:这样投简历才有效,你竟然不知道?
- python cmd以管理员执行指令(网卡切断与打开)
- python和es6_JavaScript-ES6总结(更新中!!!)
- Arndale Octa开发板下载android源码