前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入


Part1——理论篇

试想一个问题,如果我们要抓取某个微博大V微博的评论数据,应该怎么实现呢?最简单的做法就是找到微博评论数据接口,然后通过改变参数来获取最新数据并保存。首先从微博api寻找抓取评论的接口,如下图所示。

但是很不幸,该接口频率受限,抓不了几次就被禁了,还没有开始起飞,就凉凉了。

接下来小编又选择微博的移动端网站,先登录,然后找到我们想要抓取评论的微博,打开浏览器自带流量分析工具,一直下拉评论,找到评论数据接口,如下图所示。

之后点击“参数”选项卡,可以看到参数为下图所示的内容:

可以看到总共有4个参数,其中第1、2个参数为该条微博的id,就像人的身份证号一样,这个相当于该条微博的“身份证号”,max_id是变换页码的参数,每次都要变化,下次的max_id参数值在本次请求的返回数据中。

Part2——实战篇

有了上文的基础之后,下面我们开始撸代码,使用Python进行实现。

1、首先区分url,第一次不需要max_id,第二次需要用第一次返回的max_id。

2、请求的时候需要带上cookie数据,微博cookie的有效期比较长,足够抓一条微博的评论数据了,cookie数据可以从浏览器分析工具中找到。

3、然后将返回数据转换成json格式,取出评论内容、评论者昵称和评论时间等数据,输出结果如下图所示。

4、为了保存评论内容,我们要将评论中的表情去掉,使用正则表达式进行处理,如下图所示。

5、之后接着把内容保存到txt文件中,使用简单的open函数进行实现,如下图所示。

6、重点来了,通过此接口最多只能返回16页的数据(每页20条),网上也有说返回50页的,但是接口不同、返回的数据条数也不同,所以我加了个for循环,一步到位,遍历还是很给力的,如下图所示。

7、这里把函数命名为job。为了能够一直取出最新的数据,我们可以用schedule给程序加个定时功能,每隔10分钟或者半个小时抓1次,如下图所示。

8、对获取到的数据,做去重处理,如下图所示。如果评论已经在里边的话,就直接pass掉,如果没有的话,继续追加即可。

这项工作到此就基本完成了。

Part3——总结篇

这种方法虽然抓不全数据,但在这种微博的限制条件下,也是一种比较有效的方法。

一篇文章教会你使用Python抓取微博评论相关推荐

  1. python每隔半个小时执行一次_一篇文章教你用Python抓取微博评论

    [Part1--理论篇] 试想一个问题,如果我们要抓取某个微博大V微博的评论数据,应该怎么实现呢?最简单的做法就是找到微博评论数据接口,然后通过改变参数来获取最新数据并保存.首先从微博api寻找抓取评 ...

  2. python抓取抖音评论_一篇文章教会你用Python抓取抖音app热点数据

    今天给大家分享一篇简单的安卓app数据分析及抓取方法.以抖音为例,我们想要抓取抖音的热点榜数据. 要知道,这个数据是没有网页版的,只能从手机端下手. 首先我们要安装charles抓包APP数据,它是一 ...

  3. python 抖音文案提取_一篇文章教会你用Python抓取抖音app热点数据!

    今天给大家分享一篇简单的安卓app数据分析及抓取方法.以抖音为例,我们想要抓取抖音的热点榜数据. 要知道,这个数据是没有网页版的,只能从手机端下手. 首先我们要安装charles抓包APP数据,它是一 ...

  4. python 抖音文案提取_一篇文章教会你用Python抓取抖音app热点数据

    今天给大家分享一篇简单的安卓app数据分析及抓取方法.以抖音为例,我们想要抓取抖音的热点榜数据. 要知道,这个数据是没有网页版的,只能从手机端下手. 首先我们要安装charles抓包APP数据,它是一 ...

  5. python爬取抖音用户数据_一篇文章教会你用Python抓取抖音app热点数据

    今天给大家分享一篇简单的安卓app数据分析及抓取方法.以抖音为例,我们想要抓取抖音的热点榜数据. 要知道,这个数据是没有网页版的,只能从手机端下手. 首先我们要安装charles抓包APP数据,它是一 ...

  6. python爬淘宝app数据_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)

    [一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 准备Pycharm,下载安装等,可以参考这篇文章 ...

  7. 如何写一个python程序浏览淘宝_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)...

    [一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 1. 准备Pycharm,下载安装等,可以参考这 ...

  8. Python干货:教你如何利用python抓取微博评论,利用python知道更多微博大V有趣搞笑评论!

    [Part1--理论篇] 试想一个问题,如果我们要去抓取某个微博大V微博的评论数据,应该怎样去实现呢?最简单的做法就是找到微博评论数据接口,然后通过改变参数来获取最新数据并保存.首先寻找从微博抓取评论 ...

  9. python抓取微博评论_Python爬取新浪微博评论数据,你有空了解一下?

    开发工具 Python版本:3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装Pyth ...

最新文章

  1. 文本数据 php,PHP对文本数据库的基本操作方法
  2. boost::noncopyable介绍
  3. 技巧/诀窍:在ASP.NET中重写URL
  4. 最细的实现剖析:jQuery 2.0.3源码分析Deferred
  5. Python中的端口协议之基于UDP协议的通信传输
  6. 数据分析---ipython使用
  7. git的安装与使用(一)--windows平台 .
  8. c 将txt导入oracle,如何把文本数据导入Oracle中?
  9. Eclipse 快捷键整理
  10. 性能测试案例模板 性能测试用例模板 测试案例 性能用例 模板 容我想想之性能测试系列培训...
  11. js 通过图片URL地址将图片转为可操作的File文件对象
  12. php 上周日期,php获取本周和上周的开始日期和结束日期
  13. 形象理解数字证书的基本安全功能
  14. 金蝶各版本软件迁移到金蝶K3WISE工具补丁合集
  15. android studio编译app,Android Studio编译项目报错
  16. ubuntu18.04企业微信乱码
  17. Body estimation 论文阅读笔记(3):Unipose:Unified Human Pose Estimation in Single Images and Videos Bruno Ar
  18. 《1024 程序员节》—我喂自己袋盐
  19. Python办公自动化|一键生成数据分析报告
  20. 神策广告投放(用户行为)分析经验总结

热门文章

  1. OpenCV+Python 彩色图片的 BGR、灰度图、HSV分量图显示的程序
  2. 15 | 网络优化(上):移动开发工程师必备的网络优化知识
  3. 来自阿里巴巴佛系Java程序员的指南,附项目源码
  4. C# 扫描并读取图片中的文字(.NET Core)
  5. 估算的合同总价与实际的合同总价
  6. 我们的时空之旅(一)——丽江古城
  7. sam账号服务器已断开连接,删了sam文件后引发的IIS问题的解决方法
  8. 苹果应用上架被拒各种原因
  9. 电子游戏设计与制作 第一章 计算机游戏概述
  10. php 关于php时区时间错误问题 date 当前时间 时差(转载)