如何用python爬取公众号文章搜狗微信搜索_基于搜狗微信搜索的微信公众号爬虫 – we......
基于搜狗微信搜索的微信公众号爬虫
项目简介
基于搜狗微信搜索的微信公众号爬虫 可以抓取指定公众号的文章信息
项目使用
一、使用说明
1、在mysql数据库中创建数据库,比如Jubang,数据格式为utf8mb4,然后导入jubang.sql文件,创建对应的数据库表
2、修改config.py文件中对应的设置,打码平台配置ruokuai这个一定要设置,否则出现验证码就不能正常工作了
3、python对应的库的安装好,pymysql、request、lxml、PIL、werkzeug等
4、手动或自动在add_mp_list表中增加数据,然后运行auto_add_mp.py文件。 比如可以这样用:给auto_add_mp.py设定一个定时任务,5分钟或10分钟,然后前台页面文件让使用者添加待抓取的 公众号信息,然后定时任务执行时就可以把这些公众号加入待抓取列表了 add_mp_list中 name字段是模糊抓取,会根据输入的名称模糊加入10个公众号 wx_hao字段是精确抓取,这个是公众号的微信号,只抓取一个 这两个字段可以任意填入一个就行
5、执行updatemp.py文件,文件说明看后面。使用中可以给该文件设定定时任务30分钟或其它间隔,每隔一定时间,运行该 文件就会抓取已添加的公众号是否有新文章发出来。 第一次使用会抓取公众号的最近10条群发数据
6、执行updatewenzhang.py文件,该文件是抓取文章阅读及点攒数的。最新的数据会写入wenzhang_info表中,并且会在表wenzhang_statistics中 添加增量记录,可以根据wenzhang_statistics表中的数据生成曲线图 使用中可以给该文件添加5分钟或其它时间的定时任务,这样就可以来生成对应的阅读曲线图了
二、文件说明
1、updatemp.py 该文件遍历待抓取列表(数据库表:mp_info),查询表中的公众号是否有新文章发布,如果有,就抓取新的文章信息并 放入数据库表wenzhang_info中
2、updatewenzhang.py 该文件遍历文章表,然后抓取24小时之内的文章阅读数据存入表wenzhang_info和表wenzhang_statistics中
3、 auto_add_mp.py 该文件将指定的公众号添加到待抓取列表中 该文件读取数据库表(add_mp_list)中的内容,然后将其中指定的公众号填入数据库表(mp_info)中
如何用python爬取公众号文章搜狗微信搜索_基于搜狗微信搜索的微信公众号爬虫 – we......相关推荐
- 如何用 Python 爬取网页制作电子书
本文来自作者 孙亖 在 GitChat 上分享 「如何用 Python 爬取网页制作电子书」,「阅读原文」查看交流实录. 「文末高能」 编辑 | 哈比 0 前言 有人爬取数据分析黄金周旅游景点,有人爬 ...
- python爬取微信好友_如何用 Python 爬取自己的微信朋友
原标题:如何用 Python 爬取自己的微信朋友 作者 Alfred 本文转载自网络,如涉及侵权请及时联系我们 微信作为一款拥有将近9亿用户的超级APP,已经成为很多人生活中不可或缺的一部分,聊天.分 ...
- Python爬取书包网文章实战总结
python爬取书包网文章总结 今天闲来无事去看小说,但是发现没办法直接下载,所以呢就用python爬虫来下载一波了,哈哈- 爬取的是这篇小说:剑破九天(是不是很霸气,话不多说,开始-) 总体思路步骤 ...
- 如何用python爬取网页数据,python爬取网页详细教程
大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...
- 国庆小长假来点不一样的,如何用Python爬取了全国近5000家旅游景点,一起来看
2020 国庆马上就要到了 我想今年大家在家都憋坏了 今年国庆和中秋刚好又是同一天,加起来有 8 天假 这么长的假期,当然是出去 玩玩玩! 但是每次长假期间,你有没有想起被人山人海支配的恐惧呢? 那么 ...
- 如何用python爬取公众号文章_如何使用 Python 爬取微信公众号文章
我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...
- 如何用python爬取视频_介绍Python爬取哔哩哔哩视频
python视频教程栏目介绍如何爬取视频 本篇文章主要给大家讲解下如实使用python 爬取哔哩哔哩中的视频,首先我是一名大数据开发工程师,爬虫只是我的一个业余爱好,喜欢爬虫的小伙伴可以一起交流.好了 ...
- python 爬取上海体育彩票文章标题、时间、内容
python期末大作业 爬取上海体育彩票文章标题.时间.内容 并计算词频.生成特殊形状的词云图 利用selenium爬取内容代码: # https://www.shsportslottery.com/ ...
- 如何用Python爬取网易云歌曲?秘诀在这~
说到近年来程序界最火的事情是什么呢?您一定会想到Python的兴起.根据研究,Python已经成为排名前三的语言.也许你会困惑,Python能这么火的原因是什么呢? 首先是Python工具上手很快,它 ...
- 如何用python爬取数据_如何使用python爬取知乎数据并做简单分析
原标题:如何使用python爬取知乎数据并做简单分析 一.使用的技术栈: 爬虫:python27 +requests+json+bs4+time 分析工具: ELK套件 开发工具:pycharm 数据 ...
最新文章
- 详解MariaDB数据库的存储过程
- 软件测试-PR在运行场景的时候报错测试机:localhost,连接失败!请检查执行器与压力机之间的网络连接,以及场景组中各个项目配置的路径
- 永洪Desktop关于MAC系统使用问题
- 博士申请 | 佐治亚理工学院陈永昕教授招收机器学习理论方向博士生
- 您的UX库不只是书籍
- 【debug】写应用程序时遇到的桌面图标、运行图标、背景图片问题
- go接收文件服务器,请教:html5批量文件上传,服务端go怎么接收多个文件?
- 人工智能与物联网安全:以子之矛,攻子之盾
- 导入项目时遇到的plugin with id com.android.application not found问题解决方案
- 2019杭州上城区公办小学学区划分
- java 输入一个时间,获取当前周的周一以及周五时间【自然周】
- 旧显卡插上去使用黑屏,需要在BIOS中修改启动模式修改为CMS
- 计算机网络复习题第四章(标有课本知识点)
- 光猫拨号和软路由拨号失败服务器无响应,光猫拨号好还是无线路由器拨号好(一文解答你的疑惑)...
- Unity —— 百度人脸识别SDK使用
- 数字经济核心科技深度报告:AI+5G是数字时代通用技术平台
- 如何解决 Windows 实例出现身份验证错误
- 蔡氏电路matlab,蔡氏电路MATLAB混沌仿真
- Flutter:WebView和H5通信
- 《富爸爸,穷爸爸》读后感——怎么实现财务自由