声明:
本博客纯属记录本人学习过程,仅供学习使用,不会将代码贴出

1、这大概是本文会用到的一些依赖库

pip install requests

2、此次抓取新浪微博的数据时通过手机端抓取的
https://m.weibo.cn/u/1782432341
然后在网址后面加入每个人的id就可以识别到这个人的微博了,这里拿沈腾的微博作为列子


当我一直往下翻数据一直刷新,知道数据时通过ajax异步加载的

打开xha发现 数据一直刷新

但是第一个数据并不是我们想要的数据,应该是每个人微博资料

紧接着打开第二个ajax数据的时候就发现事情不简单了

这不就是我们想要的数据吗


所有信息都是在这个json文件里面 发文内容 发文时间 id mid 图片 视频

注意:id bid 后面是非常有用的 因为如果想要拿到视频 需要进行别的requests.get 需要用到id mid

而图片就是在

视频信息在

评论内容在另外的一个请求中,也是通过一个值来进行分页爬取


思路大概就是这样

2021年最新抓取微博所有图片,所有视频,所有评论,保存数据库excel相关推荐

  1. 抓取微博热搜榜数据并保存在Excel中

    PC端我们抓包常用到工具是Fiddler,那app端要怎么抓包? 1.首先将jsoup-1.8.1.jar(点击下载).poi-3.7.jar(目前上传不了,可以CSDN资源中去搜索下载)这两个包放到 ...

  2. php抓取运动步数,使用PHP抓取微博数据

    实现目标 1. 用户发布的微博内容; 2. 用户发布的时间; 3. 用户的名称; (这里我并没有获取) 使用的工具 1. voku/simple_html_dom x-path读取工具 (如果不知道怎 ...

  3. selenium+python抓取微博时遇到“展开全文”

    抓取微博时遇到"展开全文"时,在网上搜的很多都是利用工具设置二级规则之类,尝试之后利用selenium+python直接模拟点击,抓取展开全文后的文本. 在此利用的是xpath定位 ...

  4. python抓取微博热搜列表

    20200912 - 今天收拾自己以前的代码,看到了很久之前写的一个抓取微博热搜的代码,最起码的两年了,然后跑了一下,居然还行,只不过并不是理想,数据上有些偏差,但是能用.功能就是每1分钟抓取一次,然 ...

  5. 利用 Python 自动抓取微博热搜,并定时发送至邮箱

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 夜阑卧听风吹雨,铁马冰河入梦来. ...

  6. Python selenium抓取微博内容的示例代码

    Selenium简介与安装  Selenium是什么?  Selenium也是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE. ...

  7. Python 3.6 抓取微博m站数据

    Python 3.6 抓取微博m站数据 2019.05.01 更新内容 containerid 可以通过 "107603" + user_id 组装得到,无需请求个人信息获取: 优 ...

  8. golang微博爬虫-无登录获取cookie抓取微博

    使用爬虫框架 gathertool 框架地址: https://github.com/mangenotwork/gathertool 框架下载: go get github.com/mangenotw ...

  9. 使用Python抓取猫眼近10万条评论并分析

    <一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘"这出好戏"到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至 ...

最新文章

  1. Nginx学习2:Nginx的安装配置和常用命令
  2. android相对布局底部对齐,Android,在edittext中输入时防止相对布局底部对齐的按钮向上移动...
  3. 修改了n次效率还是不可接受
  4. CVPR 2016 有什么值得关注的亮点?
  5. 电路知识--认识原理图(四)
  6. oracle为空替换为0_详解Oracle如何用Translate来统计字符出现的次数
  7. 程序根据手机机型设置自定义底部导航距离
  8. Python中函数的定义和参数传递
  9. 逻辑卷、物理卷、卷组
  10. Centos 7安装和配置 ElasticSearch入门小白
  11. 如何写Java单元测试
  12. 一个在线文本比较工具
  13. java中this代表什么
  14. python瓦登尔湖词频统计
  15. 桌面图标有阴影,教给你怎么去掉
  16. 左眼跳灾,右眼跳财?
  17. 美团首席科学家的成长史
  18. FACEBOOK登录
  19. 【机器学习】多元函数梯度的理解
  20. 黑莓手机支持的媒体播放类型

热门文章

  1. PHP是单线程还是多线程?
  2. 九种破解Windows XP登录密码的方法
  3. MFC——EDIT空间显示内容大小限制在32K,如何解除?
  4. iOS程序模块化设计
  5. adb命令获取设备IMEI
  6. rrpp协议如何修改_04-RRPP命令
  7. 人工智能AI实训平台
  8. centos7.4配置nginx php,centos7.4下安装配置PHP服务(源码安装)并配置nginx支持php
  9. How I Hacked Facebook with a Word Document
  10. 你绝对能懂的“腐烂的橘子”解法