python爬虫爬取微信公众号小程序信息
python爬虫爬取微信公众号小程序信息
爬取内容
某汽车维修信息提供的维修店名称,地点以及电话(手机)号码
爬取步骤
啥也别管,先抓包看看,在这里,博主使用的抓包软件是charles
抓包:将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作,也用来检查网络安全。抓包也经常被用来进行数据截取等。
进入小程序主界面如下:
我们可以发现左上有一个定位选择地点的选项,点击后查看charles,仔细查看,我们会发现一个名为GetRegionOptions的json,里面有关于每个城市省份的name和一个value值,有什么用我们待会再讲,我们先随便选择一个城市–湖南
然后再点击主界面的汽车维修,再看抓取到的内容,同样能看到每个选项以及id,每个id代表单独一项,以此来识别不同类别的数据
我们点击小车维修,再次查看寻找,会发现我们已经找到了自己想要的东西(英文翻译很直观!)
既然找到我们需要的数据在哪,然后我们就要发送请求来获取我们所需要的数据,那我们怎样获取到指定数据呢?如某个省份某个市某种类型车的数据,前面分析的时候我们就已经知道,可以在请求的时候带上data ,里面包含了各项的id,这样就能准确获取数据,只需要将其整理在一起,遍历其就能自动化获取数据
具体代码在下面
源代码:
import requests
import json
import xlrd
import xlwt
title = ['name','contactPhone','cityName']
url_car = 'http://api.tc688.net/api/services/app/merchant/LoadCategoryMerchants'
headers = {'accept':"application/json",'Origin':"http://zazhi.tc688.net",'Cache-Control':'max-age=0','User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36 QBCore/4.0.1301.400 QQBrowser/9.0.2524.400 Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2875.116 Safari/537.36 NetType/WIFI MicroMessenger/7.0.5 WindowsWechat",'Accept-Encoding':"gzip, deflate",'Referer':'http://zazhi.tc688.net/companylist?id=148','Accept-Language':"zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.5;q=0.4",
}# 判断是否爬完
def end_run(result):if len(result): #当result为空(长度为0)则代表爬完return 0;else:return 1;# 获取我们想要的数据
def get_datas(index):data = {"pageIndex":index,"pageSize":50,"regionId":"32","categoryId":"148","orderRule":0}res = requests.post(url=url_car, headers=headers, data=data)js = json.loads(res.text)return js.get("result")# 处理数据并存储到表格
def dealdata(xls_name, sheet_name):k = 0 # 累加计算有多少个数据page = 1wb = xlwt.Workbook(xls_name)worksheet = wb.add_sheet(sheet_name)for i in range(len(title)):worksheet.write(0,i,title[i])while(page):page+=1datas = get_datas(page)if end_run(datas):print('数据获取结束')breakfor i in datas:worksheet.write(k+1,0,i['name'])worksheet.write(k + 1, 1, i['contactPhone'])worksheet.write(k + 1, 2, i['cityName'])k+=1print(f"正在获取第{k}个数据 名称:{i['name']} 手机{i['contactPhone']}")wb.save(xls_name)if __name__ == '__main__':### 要将数据存储到的文件和地点名称dealdata('datas.xls','chongqing')
注:代码只简略爬取了一个城市的数据,懒.
python爬虫爬取微信公众号小程序信息相关推荐
- python爬虫——爬取微信公众号的文章及图片
参考 爬取公众号所有文章 想要爬取微信公众号的所有文章,微信只有文章是有地址的,如何找到这个公众号的所有文章呢? 找到该公众号的链接 打开公众号平台,找到创作图文消息 这样就找到了微信号 打开检查模式 ...
- [python爬虫]爬取微信公众号
爬取微信公众号 微信公众号接口 使用的包 需要的三个文件(Account.cookie.list) 代码如下 显示结果 总 结 微信公众号接口 目前是个功能需要一个微信号并且允许网页微信登陆,我们就是 ...
- python爬虫爬取微信网页_python下爬虫爬取微信公众号文章给网站的相关操作与问题...
一.出发点 在dodo团队知乎号开刊文章中已介绍过本团队平常的实际工作,我们是一个从事游戏与金融结合的项目开发与运营团队.技术上主要是从事游戏分期.玩后付支付插件.游戏充值app等前后端开发,主要使用 ...
- python学习:爬虫爬取微信公众号数据
spider 一.获取链接 二.爬取文章标题.文章链接.文章正文.时间 三.爬取阅读量与点赞数 参考: https://blog.csdn.net/qq_45722494/article/detail ...
- Python2.7爬虫——爬取微信公众号文章
今天跟着这篇博客抓取微信公众号文章练习了一下爬虫,运行成功.想和大家分享一下过程中出现的问题和解决方法. 运行环境 windows 7 + Pycharm2018 + Python 2.7 目录 目录 ...
- python爬虫抓取微信公众号文章(含全文图以及点赞数、在看数、阅读数)
因工作需要写了一个微信公众号文章的爬虫程序,贴一下分享给需要的朋友. 首先是抓取文章的url链接,在反复研究之后找到的一个最简单的方法,不需要抓包工具.首先需要自己注册一个微信公众号,有微信即可绑定注 ...
- python爬虫爬取微信_Python爬虫爬取微信公众号历史文章全部链接
因为朋友问我能不能找一下一个微信公众号的全部历史文章的链接,我就帮他弄了一下,通过百度和谷歌发现现在大家爬微信公众号的思路基本都是下面两种: 通过搜狗搜索微信公众号然后拿到链接 通过fiddler检测 ...
- python公众号文章爬虫_Python爬虫爬取微信公众号历史文章全部链接
因为朋友问我能不能找一下一个微信公众号的全部历史文章的链接,我就帮他弄了一下,通过百度和谷歌发现现在大家爬微信公众号的思路基本都是下面两种: 通过搜狗搜索微信公众号然后拿到链接 通过fiddler检测 ...
- python爬取公众号历史文章_Python爬虫爬取微信公众号历史文章全部链接
因为朋友问我能不能找一下一个微信公众号的全部历史文章的链接,我就帮他弄了一下,通过百度和谷歌发现现在大家爬微信公众号的思路基本都是下面两种: 通过搜狗搜索微信公众号然后拿到链接 通过fiddler检测 ...
最新文章
- 【放置奇兵】算法 小恶魔大冒险
- Linux shell脚本中的命令正确写法
- Android AsyncTask 深度理解、简单封装、任务队列分析、自定义线程池
- 从单片机工程师的角度看嵌入式Linux
- #define宏定义形式的函数导致的bug
- 关于mysql中Join语句的几个问题
- sql net message from client
- logback.xml文件配置(按时间、文件大小和log名称生成日志)
- 清北中科院12位大咖联手,带你入门AI热门领域NLP!限时只需199
- Element-UI合集之el-select
- [NOIP2013 提高组] 花匠
- 如何csdn复制他人博客文章到自己博客下?
- SAP MM采购仓储入门视频教程——适合新手入门学习
- 浮点数计算常见错误1.#INF, 1.#IND和#QNAN
- web端实现二维码扫码记录
- 互联网公司裁员潮传言四起,是捕风捉影还是确有其事?
- [JZOJ6347] 【NOIP2019模拟2019.9.8】ZYB玩字符串
- 【youcans 的 OpenCV 例程200篇】153. 边缘检测之 DoG 算子
- SQL的select 语句的执行顺序
- leaflet绘制具有虚线框的多边形(125)
热门文章
- How to live a healthy lifestyle?
- 生物序列生成onehot编码
- compact set(紧集)、close set(闭集)、open set(开集)
- 【数学图像专辑001】CV+PLT的三角形画法信息标注
- JavaScript日期相关计算
- HTML5+CSS网页设计作业——传统节日-春节(8页) 学生网站模板
- Android动画框架(二)----属性动画
- 数据保护,又双叒叕火了!
- python创建一个空集合_Python中如何创建集合
- 中软python编码规范考试_中软国际面试经验