今天给大家录制了一个爬新浪微博的爬虫,也用到了抓包分析网址,但相较于以前,单纯的使用抓包分析网址在新浪微博是无效的。

cookie是什么

某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。目前有些 Cookie 是临时的,有些则是持续的。临时的 Cookie 只在浏览器上保存一段规定的时间,一旦超过规定的时间,该 Cookie 就会被系统清除。持续的 Cookie 则保存在用户的 Cookie 文件中,下一次用户返回时,仍然可以对它进行调用。

注意:

微博中的cookie有时间限制,如果运行有问题,可以更换下cookie

如何使用cookie

Cookie = {‘Cookie’: ’UM_distinctid=15ab64ecfd6592-0afad5b368bd69-1d3b6853-13c680-15ab64ecfd7b6;

remember_user_token=W1sxMjEzMTM3XSwiJDJhJDEwJHhjYklYOGl2eTQ0Yi54WC5seVh2UWUiLCIxNDg5ODI2OTgwLjg4ODQyODciXQ%3D%3D---ac835770a030c0595b2993289e39c37d82ea27e2;

CNZZDATA1258679142=559069578-1488626597-https%253A%252F%252Fwww.baidu.com%252F%7C1489923851’}

我们要构造成字典格式,如上。这样应用到请求网址的时候添加到请求头中去即可(不懂也没关系,继续往下看,有视频讲说的)。

requests库

rquests is an elegant and simple HTTP library for Python, built for human beings.Requests是一个优雅简洁的Python HTTP库,给人类使用。

使用方法如下:

r=requests.get(url,cookiess = Cookie)

实战分析

那么我们打开开发者工具,抓包分析下网址验证我们的网址规律思路

抓包分析

接下来我只是测试下,抓孔庆东微博博文的标题,如下图红色方框对应的html标签是h4

代码及运行图部分

本文视频讲解如下:

原文发布时间为:2017-03-21

本文作者:邓旭东

本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号

如何用python爬取下载微博视频_Python通过抓包和使用cookie爬取微博完全讲解(附视频)-阿里云开发者社区...相关推荐

  1. python穷举法搬砖_python 穷举法 算24点(史上最简短代码)-阿里云开发者社区

    # 作者:hhh5460 # 时间:2017年6月3日 import itertools deftwentyfour(cards): '''史上最短计算24点代码''' for nums in ite ...

  2. python爬虫进程和线程_python爬虫番外篇(一)进程,线程的初步了解-阿里云开发者社区...

    整理这番外篇的原因是希望能够让爬虫的朋友更加理解这块内容,因为爬虫爬取数据可能很简单,但是如何高效持久的爬,利用进程,线程,以及异步IO,其实很多人和我一样,故整理此系列番外篇 一.进程 程序并不能单 ...

  3. 不属于python标准库的是_《Python Cookbook(第2版)中文版》——1.10 过滤字符串中不属于指定集合的字符-阿里云开发者社区...

    本节书摘来自异步社区<Python Cookbook(第2版)中文版>一书中的第1章,第1.10节,作者[美]Alex Martelli , Anna Martelli Ravenscro ...

  4. python面向过程实践汉诺塔_递归汉诺塔-和递归汉诺塔相关的内容-阿里云开发者社区...

    多柱汉诺塔最优算法设计探究 多柱汉诺塔最优算法设计探究 引言 汉诺塔算法一直是算法设计科目的最具代表性的研究问题,本文关注于如何设计多柱汉诺塔最优算法的探究.最简单的汉诺塔是三个柱子(A.B.C),因 ...

  5. python 页眉页脚_python自动化办公:玩转word之页眉页脚秘笈-阿里云开发者社区

    节将就python操作word的页眉页脚技巧做深入介绍. 使用页眉和页脚 python操作word的页眉页脚技巧做深入介绍 Word支持页眉和页脚.页眉是出现在每个页面的上边距区域中的文本,与文本主体 ...

  6. Python通过抓包和使用cookie爬取微博完全讲解(附视频)

    今天给大家录制了一个爬新浪微博的爬虫,也用到了抓包分析网址,但相较于以前,单纯的使用抓包分析网址在新浪微博是无效的. cookie是什么 某些网站为了辨别用户身份.进行 session 跟踪而储存在用 ...

  7. 如何用python开发游戏_手把手教你用Python完成一个控制台小游戏-阿里云开发者社区...

    很多人想学Python程序设计或者已经了解过一点Python程序设计基础,却没办法开发出一个项目. 今天,通过演示一个简单的控制台小游戏制作,手把手教你如何用Python编写一个游戏程序,即便你是个新 ...

  8. python妹子图_python 妹子图的搜索结果-阿里云开发者社区

    Python老司机手把手带你写爬虫,整站下载妹子图,一次爽个够! 其实很多编程语言都可以做爬虫,例如java.c#.php等等甚至excel都可以抓网页的图表,那么为什么我们要用Python呢?它简单 ...

  9. python刷新cdn_api 刷新是什么-和api 刷新相关的问题-阿里云开发者社区

    关于 api 刷新的搜索结果 回答 详细解答可以参考官方帮助文档 登陆CDN控制台,单击 刷新,进行刷新配置. URL刷新 原理:通过提供文件URL的方式,强制CDN节点回源拉取最新的文件. 任务生效 ...

  10. python调用 matlab库_python调用matlab的搜索结果-阿里云开发者社区

    2018python技术问答集锦,希望能给喜欢python的同学一些帮助 小编发现问答专区中有很多人在问关于python的问题,小编把这些问题汇总一下,希望能给喜欢python的大家一些启示和帮助 本 ...

最新文章

  1. (转)理解android.intent.action.MAIN 与 android.intent.category.LAUNCHER
  2. 做后台支付系统,你要注意这些!!!
  3. 妖帝q群机器人_有关酷Q 晨风机器人,契约 qqlite qqlight ,mypc等QQ机器人关停一事的一点想法...
  4. python 包编译安装mysql_CentOS7编译安装MySQL8.0.23和Python3.1.9
  5. ARM 发布 新GPU
  6. 小米手机查看linux代码,如何识别小米设备-MIUI系统
  7. python优秀源码2019_SUCTF2019,python源码分析,漏洞原理
  8. 最新《Linux系统优化+Linux综合架构课程》
  9. ASCII码表及键盘码表。
  10. java连接oracle报错ora-12505,Oracle SQL Developer连接报错(ORA-12505)的解决方案(两种)
  11. macbookpro安装ch340驱动
  12. 网卡5790c linux驱动,Linux内核配置(12)
  13. Java物流项目第十天 TMS司机端、快递员端开发
  14. 了解多线程并通过Python程序实现多线程解决资源竞争、死锁等问题【非常详细】
  15. upload 上传文件之前判断,先判断再弹出文档选择框
  16. C++ MFC 时间戳与日期格式相互转换
  17. 读书百客:《轮台歌奉送封大夫出师西征》赏析
  18. (实用短祝词)逢年过节向长辈敬酒还是翻来覆去就一两句话?看这一篇文章就够了!
  19. 不懂时间管理的本质,你只会越来越忙
  20. java电商快递费收取_电商系统设计之运费模板(上)

热门文章

  1. 野猪写的《游戏程序中的骨骼插件》
  2. 记录手机连接笔记本热点无法上网问题
  3. 在图像处理中阈值是什么意思?
  4. RuoYi-flowable工作流管理
  5. CC2530 IIC 4线驱动中景0.96寸OLED屏显示程序,从c51移植过来的
  6. vuecli添加和移除插件_魔兽世界怀旧服,CEPGP EPGP插件完全汉化版 9月最新更新...
  7. php公众号上传网络图片_PHP通过CURL上传图片(微信公众号上传素材)
  8. 萬惡淫為首,百善孝為先
  9. poj百炼nbsp;2801:填词
  10. unity 设置image透明度_Unity透明效果-透明度测试