思路找到用户评论内容的位置,分析各个xhr里的不同,解析html,提取一页数据,通过循环判断拿到整条微博评论内容的数据,存储数据。

分析:网页源代码未找到评论相关的内容,打概率是通过异步加载的,把挡位调到Fetch/XHR,一个个打开在预览里查看,在buildComments里开头的能找到,从负载里明显看到几个xhr的不同:

1,第一个的数据只有6行数据,其余都是8行,且第一个没有max_id和flow的数据

2.中间的max_id每个不同,且最后一个xhr的max_id =0 

 很明显这数据很容易通过json拿到,包括用户 id 日期 评论内容等

上代码:

import requests
import csv #方便存储数据
import time  #防止被微博识别爬虫,让速度慢些
f = open("微博评论1.csv",mode ='w',newline='',encoding='utf-8')
csv_writer = csv.DictWriter(f,fieldnames=['用户id','用户','评论日期','评论内容'
])
csv_writer.writeheader()   #创建表头
#加headers python访问微博时更像是人来操作,防止微博识别爬虫
headers = {"cookie": "*****","referer": "https://weibo.com/1720962692/MeGtbrorP","user-agent": "*****","x-requested-with": "XMLHttpRequest"
}

cooking为了登录 爬取更多数据,ua和cooking涉及隐私不展示了

mid =""   #因为第一页没有max_id ,用来判断,这里不要设置成None
while True: #循环if mid == "":n_url = 'https://weibo.com/ajax/statuses/buildComments?is_reload=1&id=4834998496528837&is_show_bulletin=2&is_mix=0&count=10&uid=1720962692'elif mid ==0: #最后一页的max_id = 0用来结束循环breakelse:n_url ="https://weibo.com/ajax/statuses/buildComments?flow=0&is_reload=1&id=4834998496528837&is_show_bulletin=2&is_mix=0&max_id="+str(mid)+"&count=20&uid=1720962692"resp = requests.get(url=n_url, headers=headers)datas = resp.json()['data']print(datas)mid = resp.json()['max_id']print(mid)time.sleep(3)for data in datas:dit = {'用户id': data['user']['id'],'用户': data['user']['screen_name'],'评论日期': data['created_at'],'评论内容': data['text_raw']}csv_writer.writerow(dit)

完成展示下结果

2022爬取微博评论-极简40行代码相关推荐

  1. 看看你爱的他今天是什么‘颜色‘ -- Python爬取微博评论制作专属偶像词云

    简介:快来拿出你珍藏的pick star,用大家对他的爱重塑一个他吧.通过爬取微博评论,制作你的偶像图片词云,天天都是不重样的哦! 很多人学习python,不知道从何学起. 很多人学习python,掌 ...

  2. python跑一亿次循环_python爬虫爬取微博评论

    原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...

  3. ajax将数据显示在class为content的标签中_python爬取微博评论(无重复数据)

    python爬取微博评论(无重复数据) 前言 一.整体思路 二.获取微博地址 1.获取ajax地址2.解析页面中的微博地址3.获取指定用户微博地址 三.获取主评论 四.获取子评论 1.解析子评论2.获 ...

  4. python爬取微博评论点赞数_python 爬虫 爬微博 分析 数据

    python 爬虫 爬微博分析 数据 最近刚看完爱情公寓5,里面的大力也太好看了吧... 打开成果的微博,小作文一样的微博看着也太爽了吧... 来 用python分析分析 狗哥这几年微博的干了些啥. ...

  5. python爬虫微博评论图片_python爬虫爬取微博评论

    原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...

  6. php抓取微博评论,python爬虫爬取微博评论案例详解

    前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越 的每一条评论的相关信息. 数据格式:{"name" ...

  7. python3爬取微博评论教程_用python 爬取微博评论,怎么打开微博评论下的查看更多|...

    怎样用python爬新浪微博大V所有数据 先上结论,通过公开的api如爬到某大v的所有数据,需足以下两个条件: 1.在你的爬虫开始运行时,该大v的所有微博发布量没有超过回溯查询的上限,新浪是2000, ...

  8. python爬取微博恶评_python爬取微博评论的实例讲解

    python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无论是python新入手的小白,还是已经 ...

  9. python爬取微博评论(通过xpath解析的方式)

    前段时间笔者写了一份儿爬取微博评论的代码,是用了http://m.weibo.cn的接口,通过这个接口比较好的是代码比较好写,因为数据都是json格式的,规律性非常直观,属性json数据和字典操作的朋 ...

最新文章

  1. uniapp中qrcode生成二维码后传的参数不见了_阿虚教你制作动态二维码,超详细教程!
  2. 微软云服务器多ip,Azure 虚拟机的多个 IP 地址 - 门户 | Microsoft Docs
  3. 在 RedHat 使用 gdc-client 下载 TCGA 数据
  4. iOS计算输入字符数
  5. 《windows server 2008》FTP服务器搭建
  6. 云原生时代|分布式系统设计知识图谱(内含 22 个知识点)
  7. c++中union的使用,看高手们如何解释的
  8. 使用IntelliJ IDEA碰到的问题总结
  9. 2020,AI算法岗,劝退还是继续?
  10. 华为nova7se能云闪付吗_华为迎来转机!联发科“顶替”麒麟芯片,已售罄手机将重获新生...
  11. 基于顺序存储结构的图书信息表的最爱图书的查找(C++)
  12. 关于 async 与 await的个人理解
  13. ofo之死:一场商业“宫斗剧”下的祭品
  14. 基于tuns的DNS隧道研究
  15. 《Python程序设计基础(第2版)》习题答案
  16. SPSS联合Excel进行logistic回归亚组交互效应(交互作用)的可视化分析
  17. 第一次使用MFC开发桌面小程序
  18. keil(MDK)中出现error: #513:
  19. 深度学习论文阅读图像分类篇(三):VGGNet《Very Deep Convolutional Networks for Large-Scale Image Recognition》
  20. 人工神经网络模型定义,人工神经网络基本框架

热门文章

  1. 计算机专业的在职考研,2019年深造北京航空航天大学在职研究生计算机专业在职考研科目是什么...
  2. 算法AK说 又是递归?! 这样讲全排列算法,应该明白了!
  3. 【IoT-卫朋】智能硬件 | 产品按键设计
  4. adb shell打开开发者选项
  5. 2018_AAAI_Social Recommendation with an Essential Preference Space—(AAAI, 2018)
  6. 池州计算机一级考试试题题库,池州科目一考试题库
  7. matlab心电信号处理,基于Matlab的心电信号自动处理系统的设计与开发 毕业论文设计.doc...
  8. 【Java】我的世界Java版外挂制作 [1] - 模块管理器与第一个模块
  9. 计算机无法安装hp网络打印机,无法安装打印机驱动是怎么回事?不能安装惠普打印机驱动的解决方法...
  10. LDIFDE试验全记录