前言

大家好,我是Kuls。

之前写的那篇App抓包软件charles的配置说过,超过30在看,马上更下一篇。有读者问我怎么爬App,我手把手教了他(多图警告)

所以加班加点给大家写了今天这篇文章。

本文将会带着大家完完整整的爬取小红书的全过程

小红书

需要做的前提工作就是装配好mitmproxy

具体的配置过程,我建议大家参照崔大写的来进行安装

https://zhuanlan.zhihu.com/p/33747453

首先,我们打开之前大家配置好的charles

我们来简单抓包一下小红书小程序(注意这里是小程序,不是app)

不选择app的原因是,小红书的App有点难度,参照网上的一些思路,还是选择了小程序

1、通过charles抓包对小程序进行分析

我们打开小红书小程序,随意搜索一个关键词

按照我的路径,你可以发现列表中的数据已经被我们抓到了。

但是你以为这就结束了?

不不不

通过这次抓包,我们知道了可以通过这个api接口获取到数据

但是当我们把爬虫都写好时,我们会发现headers里面有两个很难处理的参数

"authorization"和"x-sign"

这两个玩意,一直在变化,而且不知道从何获取。

所以

2、使用mitmproxy来进行抓包

其实通过charles抓包,整体的抓取思路我们已经清晰

就是获取到"authorization"和"x-sign"两个参数,然后对url进行get请求

这里用到的mitmproxy,其实和charles差不多,都是抓包工具

但是mitmproxy能够跟Python一起执行

这就舒服很多啊

简单给大家举例子

def request(flow):

print(flow.request.headers)

在mitmproxy中提供这样的方法给我们,我们可以通过request对象截取到request headers中的url、cookies、host、method、port、scheme等属性

这不正是我们想要的吗?

我们直接截取"authorization"和"x-sign" 这两个参数

然后往headers里填入

整个就完成了。

以上是我们整个的爬取思路,下面给大家讲解一下代码怎么写

其实代码写起来并不难

首先,我们必须截取到搜索api的流,这样我们才能够对其进行获取信息

if 'https://www.xiaohongshu.com/fe_api/burdock/weixin/v2/search/notes' in flow.request.url:

我们通过判断flow的request里面是否存在搜索api的url

来确定我们需要抓取的请求

authorization=re.findall("authorization',.*?'(.*?)'\)",str(flow.request.headers))[0]

x_sign=re.findall("x-sign',.*?'(.*?)'\)",str(flow.request.headers))[0]

url=flow.request.url

通过上述代码,我们就能够把最关键的三个参数拿到手了,接下来就是一些普通的解析json了。

最终,我们可以拿到自己想要的数据了

如果你想要获取到单篇数据,可以拿到文章id后抓取

"https://www.xiaohongshu.com/discovery/item/" + str(id)

这个页面headers里需要带有cookie,你随意访问一个网站都可以拿到cookie,目前看来好像是固定的

最后,可以把数据放入csv

总结

其实小红书爬虫的抓取并不是特别的难,关键在于思路以及使用的方法是什么。

本期的文章就到这里了,如果本期在看超过40,马上出下一篇干货!

我们下期见~

-------------------End-------------------

往期精彩文章推荐:

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群】

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

python抓取小红书_小红书很难爬?最新爬取方法教给你啦~相关推荐

  1. 新巴巴运动网项目需求书_项目申报书、项目可行性研究报告傻傻分不清楚?

    点击蓝色字关注我们 在企业的日常运作中,会出现很多种报告,比如:企业初建厂房时,需要去发改委取得备案文件,这个时候需要一份可行性研究报告:企业发展过程中,需要通过项目形式,去申请一笔资金时候,又需要一 ...

  2. java犀牛书_犀牛书学习笔记(9):继承

    OOP的特性之一就是继承,只有实现了继承的语言才能称之为OOP,本篇将说明javasctipt如何使用继承. 原型.构造函数和对象中的基于原型的继承概念 虽然本地对象都继承自Object,但实际上,可 ...

  3. 机器人带陀螺仪走钢丝_走直线很难吗?陀螺仪表示,少了它机器人连直线都走不了...

    原标题:走直线很难吗?陀螺仪表示,少了它机器人连直线都走不了 机器人要想完成特定任务,就一定要有所动作,这个时候,必须掌握如何控制机器人走直线.曲线,从而使机器人移动到我们想做任务的地方. 机器人走直 ...

  4. python 读取鼠标选中文本_送书 | 选择文本的神技

    " 欢迎关注[雷哥office],为了回馈粉丝,最近几个月每周都会有送书活动,想要书的朋友不要错过哦~本周第二弹福利, 详情见文末 " 1 使用鼠标 ⑴ 选中区域.将鼠标光标放在要 ...

  5. python微信公众号爬虫_微信公众号推送信息爬取---python爬虫

    问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...

  6. python伪装浏览器什么意思_用python2和python3伪装浏览器爬取网页

    python网页抓取功能非常强大,使用urllib或者urllib2可以很轻松的抓取网页内容.但是很多时候我们要注意,可能很多网站都设置了防采集功能,不是那么轻松就能抓取到想要的内容. 今天我来分享下 ...

  7. python 第一行 报错_初学Python-只需4步,爬取网站图片

    很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来. 尤其是做我们这一行,产品经理,电商行业. 领导:弄一个买卖游戏周边商品的交易APP出来.我:行,那我们卖什么呀?领导:看 ...

  8. python爬取二手房信息_刚刚接触PythonR?教你爬取分析赶集网北京二手房数据(附详细代码)...

    原标题:刚刚接触Python&R?教你爬取分析赶集网北京二手房数据(附详细代码) 源 /数据森麟文 /徐涛 前言: 本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的 ...

  9. javascript犀牛书_犀牛书作者:最该忘记的JavaScript特性

    作者: 李松峰 转发链接:https://mp.weixin.qq.com/s/guAN1Cz2gYfKdBhmUpLyVA 前言 JavaScript这门语言的第一个演示版差不多就在25年前诞生. ...

最新文章

  1. 在Relay中注册新TVM算子
  2. 用ext_skel,实现一个PHP扩展,添加到PHP并调用
  3. synchronized底层原理_你用过synchronized吗?它的底层原理是什么?Java经典面试题来了...
  4. squid服务器的代理
  5. ajax基本用法介绍
  6. LeetCode算法题13:DFS/BFS - 单词搜索
  7. 扎心了!腾讯扩招至5000人,99%应届生:与我无瓜
  8. C# winform 使用DsoFramer 创建 显示office 文档
  9. 蓝桥杯 ALGO-111 算法训练 明明的随机数
  10. Cocos2d-x 学习之引擎介绍
  11. js密码强度正则表达式_相信我,这20个正则表达式,能让你少写1000多行代码,建议收藏...
  12. Python读取PDF文档并翻译
  13. python读取二进制文件_python中读写二进制文件
  14. MySQL查询GROUP BY日/月/年
  15. Java面向对象编程三大特征 - 封装
  16. jQuery + JavaScript 实现的动态添加文本框功能 和 动态删除文本框功能(二)
  17. 数字逻辑课程设计--数字钟的设计(quartus ii)(内附源代码和实习报告以及6篇实习日志)
  18. 一个数字几个字节_字节跳动安全沙龙闭幕 多位专家解析数字经济业务安全
  19. glTF格式模型导出方式
  20. python -m pip install --upgrade pip

热门文章

  1. 浏览器总是提示验证码输入错误
  2. java p41——Filter过滤器
  3. Sharding-JDBC(一)SpringBoot集成
  4. IT企业职业道德的反思
  5. 二维码解码器Zbar+VS2012开发环境配置
  6. ansible一些基本操作
  7. 最新美团java开发3轮技术面+hr面 点评(总结分析)
  8. GRAIL Efficient Time Series Representation Learning论文阅读笔记(二)
  9. 最近工作中遇到的问题和解决
  10. 计算机的硬件和软件主成