python 闲鱼消息_GitHub - ygq556/XianyuSdd: 爬取闲鱼某关键字实时信息，将最新的发送到钉钉群聊。更多我们共同开发的项目（咸鱼反爬更新，只能作为学习使用）...

XianyuSdd

爬取闲鱼某关键字实时信息，将最新的发送到钉钉群聊

写了一个异步爬取闲鱼商品最新信息推送到钉钉

图中的需求有两个部分值得学习。

多线程爬取最新关键字的商品信息

python对钉钉的操作

多线程爬取最新关键字的商品信息

这个多线程是依靠关键字的数量，启动线程。比如可以是线程数=关键字的数量/5。具体接口参考github组织中的例子，24小时采集然后将线程加入到while True中。关键字与价格区间可以在闲鱼接口链接中自定义。

python对钉钉的操作

针对钉钉是一个很好的信息传输方式，钉钉的开发文档详细讲述了如何调用钉钉的api。

注册钉钉账号

手机创建钉钉组织

用自己创建的组织登录桌面版的钉钉应用(要用自己创建组织的钉钉才能登录带有自己权限的管理后台-web端亦是如此)

创建群聊。在群聊中找到机器人，自定义机器人，找到webhook(这便是钉钉的发送信息的api)

虽然没有python版的介绍。可是api是通用的。api介绍也是很丰富。

推荐看下web版的后台管理，这是一个很好的开发场地。

如何知道获取最新的商品数据

使用数据库，将爬取商品的详情链接存储到数据库中，每次判断数据库中是否有此商品链接数据，若存在，便不是最新。若不存在，推送到钉钉群，然后数据插入数据库。

优化数库的存储方式

暂停与开始

这个方面我没有深入思考，简单的把关键字存到数据库中，没一次线程爬取从数据库中读取现有的数据库关键字。

暂停就是数据库中的某个关键字的字段删除。

(这点为了不值得使用吧！)

使用说明

本项目采用异步爬取，对于闲鱼速度快，效率高。

注意事项

钉钉接口每个机器人每分钟只能发送20条信息。次数太多会被限制。一个群聊可以创建6个机器人的webhook。建议将次6条都加入到程序的机器人队列

钉钉接口存在敏感字检测。当爬取的信息触发了阿里系的检测系统，信息不能发送。这里在日志面板给出已经提示。

经过测试100多关键字的爬取效率在8-10s内完成。

给出的关键字描述尽可能精确，避免大范围的搜索。如错误示例：关键字‘空调’ 范围广与‘空调’+品牌或 ’空调‘+ 功能部件，缩小搜索范围。

程序的爬取频率设定时间尽量多一些。否者爬取的发送信息很多，将导致钉钉接口失效。这里爬取频率代表一个全部爬虫结束到下一次爬虫开始的时间。建议设置为10s左右。将会10秒后进行下一次执行。

发送方式：1-单文本发送(若消息过多，钉钉接口限制)，2-连接文本发送(手机端不支持跳转闲鱼app)，3-markdown文本(推荐、将一次爬取的消息汇聚到个文本中，较少钉钉接口压力)

添加关键字：关键字不为空，价格若不填则搜索时为全价。

删除关键字：选中关键字任务，点击删除，确认删除。

单项开启：选中关键字任务，点击开启，任务单独开启

单项关闭：选中关键字任务，点击关闭，任务单独关闭

一键开启：点击一键开启，默认开启全部任务

一键关闭：点击一键关闭，默认关闭全部任务

更新配置：实时更新爬取频率，发送方式

清除缓存：清除缓存文件。软件长时间使用产生大量缓存文件，硬件运行效率下降

清空配置：清除所有配置选项+缓存文件。一般不建议使用

日志文件：输出日志信息

系统日志：输入操作信息

钉钉机器人-添加机器人：添加钉钉机器人的webhook完整链接

钉钉机器人-删除机器人：选中机器人链接，点击删除，删除成功

钉钉机器人-测试机器人：测试插入的webhook是否有效。将发送'欢迎测试闲鱼信息及时推送器-机器人验证'到钉钉群

推荐数据

使用方式

后续更新

0x01 搭配mongodb使用，配置服务

mongod.exe --dbpath c:/1

0x02 启动服务

单机exe运行服务

python 闲鱼消息_GitHub - ygq556/XianyuSdd: 爬取闲鱼某关键字实时信息，将最新的发送到钉钉群聊。更多我们共同开发的项目（咸鱼反爬更新，只能作为学习使用）...相关推荐

python-python爬取豆果网（菜谱信息）
python-python爬取豆果网(菜谱信息) #-*- coding = utf-8 -*- #获取豆果网图片 import io from bs4 import BeautifulSoup im ...
利用node.js写爬虫爬取某相亲网站全部交友信息
点击查看爬取世纪佳缘相亲交友信息利用node.js,写了一个爬虫js.1个小时左右的时间,便爬取了2000多条交友信息,包括网名,年龄,图片,学历,工资等.当然,爬取的速度和网速有很大的关系,也和你 ...
python人人贷爬虫_爬取人人贷网上部分借贷信息以及数据可视化
一.主题式网络爬虫设计方案:爬取人人贷网上部分借贷信息 1.主题式网络爬虫名称:爬取人人贷网上部分信息 2.主题式网络爬虫的内容与数据特征分析:爬取人人贷部分信息数据,借贷信息 3.主题式网络爬虫设计 ...
python爬房源信息_用python爬取链家网的二手房信息
题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...
Python网络爬虫：爬取腾讯招聘网职位信息并做成简单可视化图表
hello,大家好,我是wangzirui32,今天我们来学习如何爬取腾讯招聘网职位信息,并做成简单可视化图表,开始学习吧! 文章目录 1. 网页分析 2. 获取json数据 3. 转换为Excel ...
Python爬取豆瓣电影top250的电影信息
Python爬取豆瓣电影top250的电影信息前言一.简介二.实例源码展示小结前言相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...
python爬取并分析淘宝商品信息
python爬取并分析淘宝商品信息背景介绍一.模拟登陆二.爬取商品信息 1. 定义相关参数 2. 分析并定义正则 3. 数据爬取三.简单数据分析 1.导入库 2.中文显示 3.读取数据 4.分 ...
使用python+Selenium动态爬取《率土之滨》藏宝阁账号信息
目录准备工具python + Selenium 使用Selenium打开<率土之滨>藏宝阁主页爬取第一个商品的信息收集武将数量,战法数量,宝物数量收集价格.收藏人数.客户端类型.典 ...
【爬虫】用Python爬取去哪儿网热门旅游信息（并打包成旅游信息查询小工具）
以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/det ...

python 闲鱼消息_GitHub - ygq556/XianyuSdd: 爬取闲鱼某关键字实时信息，将最新的发送到钉钉群聊。更多我们共同开发的项目（咸鱼反爬更新，只能作为学习使用）...

python 闲鱼消息_GitHub - ygq556/XianyuSdd: 爬取闲鱼某关键字实时信息，将最新的发送到钉钉群聊。更多我们共同开发的项目（咸鱼反爬更新，只能作为学习使用）...相关推荐

最新文章

热门文章