微博爬虫之:无需账号获取微博weibo的Cookie
这里主要演示原理,不涉及具体的编程代码,工具:Postman,主要3个步骤:
第1步(获取tid):
网址:https://passport.weibo.com/visitor/genvisitor
方式:POST
参数:
cb:gen_callback(固定)
fp:{"os":"1","browser":"Chrome70,0,3538,25","fonts":"undefined","screenInfo":"1920*1080*24","plugins":"Portable Document Format::internal-pdf-viewer::Chromium PDF Plugin|::mhjfbmdgcfjbbpaeojofohoefgiehjai::Chromium PDF Viewer|::gbkeegbaiigmenfmjfclcdgdpimamgkj::Google文档、表格及幻灯片的Office编辑扩展程序|::internal-nacl-plugin::Native Client"}(视浏览器真实值而定)
响应结果:
window.gen_callback && gen_callback({"retcode":20000000,"msg":"succ","data":{"tid":"t4vkYDYI5yHEIXBRL+VFdoXnXPqE9389EuMYk4HojIE=","new_tid":true}});
Postman截图:
第2步(获取sub和subp):
网址:https://passport.weibo.com/visitor/visitor
方式:GET
参数:
a:incarnate(固定)
t:UhIQHACePHlmNiYcsClsQk4FcWAJx8dnTtn7lSkeql8(即上面得到的tid)
w:3(如果上面的new_tid为true,则此值为3,否则为2)
c:100(如果上面的data中有此值则取此值,否则默认为100)
cb:cross_domain(固定)
from:weibo(固定)
响应结果:
window.cross_domain && cross_domain({"retcode":20000000,"msg":"succ","data":{"sub":"_2AkMr-VWef8NxqwJRmfoQzGvgbYh1yAvEieKdpaRFJRMxHRl-yT83qmMMtRB6AHl7cF8_VEgmhI22z4tOrHKOgCxqTZfs","subp":"0033WrSXqPxfM72-Ws9jqgMF55529P9D9W5bD_b5wVspSuGXLY-FIm9m"}});
Postman截图:
第3步(将sub和subp拼接组成Cookie,实现爬取数据):
网址:https://d.weibo.com/1087030002_2975_2017_0
方式:GET
Headers参数:
Cookie:SUB=_2AkMr-Uitf8NxqwJRmP4Vym7lZIt2wwDEieKdpbl2JRMxHRl-yT83qhAytRB6AHlmQiE0cGNJVvYskBmcaMuDeBtcMDoK; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WW7Ds97Ql.cFbVqMIoBZMpe
(SUB和SUBP有上一个接口得到)
Postman截图:
微博爬虫之:无需账号获取微博weibo的Cookie相关推荐
- pyhton微博爬虫(3)——获取微博评论数据
本文的主要目标是获取微博评论数据,具体包括微博评论链接.总评论数.用户ID.用户昵称.评论时间.评论内容.用户详情链接等. 实现代码如下所示: # -*- coding: utf-8 -*- &quo ...
- pyhton微博爬虫(2)——获取微博用户关注列表
本文的主要目标是获取微博用户关注列表以及关注列表中各微博用户的ID.昵称.详情链接.粉丝数.关注数等关键信息. 实现代码如下所示: # -*- coding: utf-8 -*- "&quo ...
- php模拟关注微博,PHP基于laravel框架获取微博数据之一 模拟新浪微博登录
参考资料: http://www.csuldw.com/2016/11/10/2016-11-10-simulate-sina-login/ http://blog.csdn.net/fly_leop ...
- php rsa2 微博,PHP 基于laravel框架获取微博数据之一 模拟新浪微博登录
模拟新浪微博登录是抓取新浪数据的基础,网上的参考资料大多介绍的是用Python开发,有一篇使用php模拟登录的资料还是在phpcms中实现的,也没有太深入分析. PS:网上资料来源比较乱,不知道php ...
- python微博爬虫实战_32个Python爬虫实战项目,满足你的项目荒,附赠资料
写在前面 学习Python爬虫的小伙伴想成为爬虫行业的大牛么? 你想在网页上爬取你想要的数据不费吹灰之力么? 那么亲爱的小伙伴们肯定需要项目实战去磨练自己的技术,毕竟没有谁能随随便便成功! 小编前段时 ...
- python微博爬虫分析_python爬取和分析新浪微博(一):scrapy构建新浪微博榜单、博主及微博信息爬虫...
1. 爬虫项目介绍 爬虫首先基于python scrapy 框架,使用了随机用户代理和IP代理等反爬技巧,将爬取到的微博领域数据,各领域榜单博主信息和博主的微博信息分别存入的mysql数据库对应的表格 ...
- 献给初学iOS的小盆友们——微博app项目开发之七第一次获取微博数据
上节课我们已经用request token 换取到了access token,但是经过验证我们发现,每一次输入一样的账号和密码后,获取的access token 都是一样的,也就是我们不是每次都需要获 ...
- 爬虫获取微博首页热搜
爬虫获取微博首页热搜 步骤: 打开微博首页 https://s.weibo.com/top/summary? 右键点击检查,分析静态网页 将爬取到的内容保存为csv文件格式 需要导入的库 import ...
- 【Python】爬虫获取微博热搜数据,response中文显示“\u7814\u7a76\u8bc1\u5b9e\u”
问题描述 在爬虫获取微博热搜数据的时候,response中文出现了不便于理解的字段,截取如下: ......[{"title_sub":"\u7814\u7a76\u8b ...
最新文章
- 谷歌AutoML鼻祖Quoc Le新作AutoML-Zero:从零开始构建机器学习算法
- Cortana小娜:城市信息提醒
- putty连接虚拟fedaro失败的解决方法
- 经典|图解Linux内存性能优化核心思想
- oracle导入初始数据死机,Sqoop导入Oracle数据至hive卡死在hive.HiveImport: Connecting to jdbc:hive2不执行...
- struts2.1笔记02:servlet简介
- 参数修饰符 params、 out、ref
- 永远无法在游泳池里学会海战--《实战Python设计模式》新书介绍
- CS游戏控制台命令大全(来自网络)
- 手把手教你用Python操纵Word自动编写离职报告!
- 2020年980计算机综合,2022年华北水利水电大学980计算机学科专业综合考研复习资料...
- python3思维导图.xmind_Xmind和FreeMind思维导图格式互转
- 用HTML+CSS+JS制作一个让女朋友无法抗拒的表白烟花网站
- WEB漏洞之:海洋CMS代码执行(CNVD-2020-22721)
- [PAT A1044]Shopping in Mars
- 发光二极管与光电二极管区别
- 前端vue项目(使用pdf.js) pdf展示及pdf工具栏放大缩小功能实现
- 关于java集合的练习
- 【渝粤题库】陕西师范大学152113 统计学 作业
- iOS使用HHealthKit读取修改健康步数